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Von den gebundenen Ausgaben des Bandes „Probleme und Resultate der Wissen- 
schaftstheorie und Analytischen Philosophie, Band IV, Personelle und Statisti- 
sche Wahrscheinlichkeit“ sind folgende weiteren Teilbände erschienen: 

Studienausgabe Teil A: Aufgaben und Ziele der Wissenschaftstheorie. In- 
duktion. Das ABC der modernen Wahrscheinlichkeitstheorie und Statistik. 

Studienausgabe Teil B: Entscheidungslogik (rationale Entscheidungstheorie). 



Studienausgabe Teil C: Carnap II: Normative Theorie des induktiven Räso- 
nierens. 

Studienausgabe Teil E: Statistische Begründung. Statistische Analyse. Das Re- 
präsentationstheorem von de Finetti. Metrisierung qualitativer Wahrscheiniich- 
keitsfelder. 




Einleitung: Überblick über den Inhalt 
des zweiten Halbbandes 



Wer sich heute als Philosoph und Wissenschaftstheoretiker der Proble- 
matik des sogenannten Statistischen Schließens* zuwendet, der sollte sich 
zu Beginn rücksichtslos eine negative Tatsache einprägen: Es besteht bis 
%um heutigen Tag eine ungeheure Kluft % wischen logischen und mssenschaftstheore - 
tischen Analysen von Begriffen der Prüfung , der Bestätigung und der Bewährung von 
Hypothesen auf der einen Seite , und von Fachleuten im Gebiet der mathematischen 
Statistik angestellten Untersuchungen über diese Themenkreise auf der anderen Seite . 
Den einzigen mir bekannten Versuch eines Brückenschlages stellt das Buch 
von J. Hacking “The Logic of Statistical Inference” dar. In dem auf den 
ersten Abschnitt von Teil III folgenden Text habe ich daher in vielen 
Punkten auf Hackings Ideen zurückgegriffen, allerdings meist in der Form 
kritischer Diskussionen und Rekonstruktionen, die vermutlich häufig zu 
Konsequenzen führen, die mit Hackings Auffassungen nicht übereinstim- 
men. 

Die erwähnte Kluft wird von Philosophen nur allmählich zu überbrük- 
ken sein, und auch das allein dann, soweit sie bereit und in der Lage sind, 
sowohl den Willen zu äußerster Bescheidenheit als auch den zu größtmög- 
licher Vorurteilslosigkeit aufzubringen. Diese beiden Entschlüsse müssen 
sich in zwei verschiedenen Dimensionen bewegen. 

Bescheidenheit ist nicht etwa gegenüber der philosophisch- wissenschafts- 
theoretischen Literatur geboten, sondern hat sich auf die statistische 
Fachliteratur zu richten. Was hier von Spezialisten geleistet worden ist — 
leider in einer ,dem gewöhnlichen Sterblichen* kaum oder nur sehr schwer 
verständlichen mathematischen Sprache — , muß zunächst verstanden , 
d. h. begrifflich durchdrungen und auf seine Voraussetzungen und Kon- 
sequenzen hin analysiert werden. „Besser verstehen !“ und nicht „besser 
machen!“ muß die Devise beim Beginn der Arbeit lauten. (Mit der Nieder- 
schrift von Teil 0 im Ersten Halbband habe ich unter anderem auch 
den Zweck verfolgt, Philosophen und Wissenschaftstheoretiker mit den 
wichtigsten begrifflichen Apparaturen der Statistik vertraut zu machen, 
ohne die ein weiteres Eindringen in die Materie nicht möglich ist.) Aller- 
dings wird man hier bald eine merkwürdige Beobachtung machen, näm- 
lich daß sowohl bezüglich der Grundbegriffe als auch in sehr speziellen 
Detailfragen unüberwindliche Gegensätze zu bestehen scheinen. Der Gegen- 
satz zwischen ,Bayesianern c und ,Anti-Bayesianern c spiegelt z. B. einen 
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Unterschied in den Auffassungen über die Natur des Begriffs der Wahr- 
scheinlichkeit selbst wider. Wenn man dann noch solche Dinge zur Kennt- 
nis nehmen muß, wie daß ein bedeutender Statistiker und Begründer einer 
Schule, R. A. Fisher, ausgeklügelte Testmethoden entwickelte, von denen 
der Begründer einer anderen Schule, J. Neyman, beweisen zu können be- 
hauptete, daß diese Methoden in einem mathematisch präzisierbaren Sinn 
schlechter als nutzlos* seien, dann wird man gewahr, daß hier im Grund- 
sätzlichen wie in Einzelheiten Gegensätze vorherrschen, wie sie in kaum 
einer anderen Wissenschaft anzutreffen sind — den Streit zwischen philo- 
sophischen Schulen natürlich ausgenommen. Gerade diese 5 heimatlichen 
Klänge* aber könnten vielleicht dazu beitragen, philosophisches Interesse 
zu erwecken. Tatsächlich kann ich mit introspektiver Gewißheit verifi- 
zieren, daß sie in mindestens einem Fall dazu beigetragen haben. 

Die Aufforderung %um vorurteilslosen Herantreten an die Probleme muß da- 
gegen die Bereitschaft einschließen, sich von herkömmlichen Denkansätzen 
zu befreien, und zwar nicht nur von solchen der traditionellen Philosophie, 
sondern gerade auch von solchen, die in der neueren Wissenschaftstheorie 
entwickelt worden sind. Wer sich heute als Philosoph mit Bestätigungs- und 
Testproblemen beschäftigt, stößt nicht nur mit Sicherheit auf zwei große 
Namen. Er wird sich fast unvermeidlich, bewußt oder instinktiv, mehr der 
einen oder der anderen Denkweise anschließen. Und ebenso wird der Leser, 
der mit den einschlägigen Diskussionen auch nur einigermaßen vertraut ist, 
zunächst herauszubekommen versuchen, ob sich der Betreffende mehr als 
5 Carnapianer* oder als ? Popperianer c den Problemen zuwendet. Der Titel 
des ersten Abschnittes wurde nicht nur gewählt, um von vornherein keine 
falschen Erwartungen auf kommen zu lassen; er ist gleichermaßen als Appell 
zu verstehen, sich in der Tugend der Befreiung von wissenschaftstheoreti- 
schen Voreingenommenheiten zu üben. Dagegen war damit keinerlei pole- 
mische Absicht verbunden. Die Abgrenzung gegenüber dem, was Carnap 
induktive Logik nannte, ist zwar eine unmittelbare Konsequenz meiner 
entscheidungstheoretischen Uminterpretation des Carnapschen Projektes. 
Denn im gegenwärtigen Kontext haben wir es, wenigstens in der Haupt- 
sache, mit theoretischen Nachfolgerproblemen zum Induktionsproblem zu 
tun. Doch würde der Unterschied auch dann bestehen bleiben, wenn man 
Carnaps ursprünglichem Selbstverständnis folgte. Schlagwortartig seien 
die wesentlichen Unterschiede hervorgehoben: (1) In Carnaps System 
können isolierte Hypothesen aufgrund von Erfahrungsdaten beurteilt wer- 
den. In dem hier versuchsweise eingeführten Analogon zum Bestätigungs- 
begriff wird hingegen ausdrücklich auf miteinander rivalisierende Alternativ- 
hypothesen Bezug genommen. (2) Der Begriff des statistischen Datums schließt 
nicht nur sog. ,Beobachtungsdaten* ein, sondern stets auch ein background 
knowledge in Gestalt akzeptierter statistischer Oberhypothesen. Die Notwendig- 
keit einer solchen Einbeziehung ergibt sich daraus, daß man keine statisti- 
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sehen Hypothesen überprüfen kann, ohne andere statistische Hypothesen 
als gültig vorauszusetzen. Dieser scheinbar paradoxe Sachverhalt wird ver- 
ständlicher, wenn man zu der von R. N. Giere benützten Analogie greift, 
bei der es sich ebenfalls um eine theoretische Größe handelt : Es dürfte in 
der Physik nicht möglich sein, den Wert einer bestimmten Kraft zu be- 
stimmen, ohne irgendwelche Annahmen über andere Kräfte zu machen. (3) 
Der Bestätigungsbegriff ist nicht probabilistisch , also in einem bestimmten 
technischen Sinn nicht induktivistisch (dies gilt allerdings nur mit Ausnahme 
von Abschnitt 13). 

Die eben gemachten Andeutungen legen die Vermutung nahe, daß 
die hier vorgetragenen Überlegungen eine mehr oder weniger große Ähn- 
lichkeit mit der Denkweise Poppers haben werden. Ich bin gern bereit, dies 
zuzugeben. Dennoch scheint es mir, daß die Poppersche Theorie von vorn- 
herein auf deterministische Hypothesen zugeschnitten ist. Insbesondere gilt 
die von Popper mit solcher Emphase betonte Asymmetrie zwischen Veri- 
fizierbarkeit und Falsifizierbarkeit im statistischen Fall nicht. Dies hat 
mehrere wichtige Konsequenzen: Erstens darf man bei der Beurteilung 
statistischer Hypothesen nicht nur an die Gefahr denken, daß man Falsches 
irrtümlich für richtig hält; die dazu duale Gefahr der irrtümlichen Verwerfung 
von richtigen Hypothesen ist genauso ernst zu nehmen. Zweitens ist jede Ver- 
werfung statistischer Hypothesen etwas prinzipiell Provisorisches . Während im 
deterministischen Fall die empirische Widerlegung von Theorien nur da- 
durch rückgängig gemacht werden kann, daß man die empirischen Daten 
in Frage stellt, kann die Zurücknahme der Verwerfung einer statistischen Hypo- 
these durch bloße Vergrößerung der Erfahrungsdaten , ohne Revision der bei der 
Verwerfung verfügbaren Daten, erzwungen werden. Dies allein zeigt, daß 
jeder Begriff der , vernünftigen Verwerfung' von statistischen Hypothesen, 
wie immer er genauer zu explizieren ist, etwas völlig anderes darstellt als der 
Begriff der Falsifikation, jedenfalls keine natürliche Verallgemeinerung' 
dieses letzteren Begriffs. Schließlich kann man bei deterministischen Hypo- 
thesen stets feststellen, ob Beobachtungsdaten mit ihr in Einklang stehen 
oder ob sie dies nicht tun. Bei statistischen Hypothesen kann es sich ereig- 
nen, daß sich keines von beiden sagen läßt: Urteilsenthaltung ist dann die 
adäquateste Reaktion. Dies ist ein dritter Unterschied. Weiter oben wurde 
gesagt, daß der später benützte Bestätigungsbegriff nicht 5 induktivistisch' 
ist. Ergänzend füge ich jetzt hinzu : er ist auch nicht ,deduktivistisch'. 

Von einem streng systematischen Gesichtspunkt aus gesehen wäre es 
wünschenswert, die Beschäftigung mit der statistischen Wahrscheinlichkeit 
in zwei Teile zu zerlegen. Im ersten Teil wäre zu schildern, wie dieser Begriff 
als ein , wohldefinierter Begriff' einzuführen ist. Erst im zweiten Teil hätte 
man sich dann der Bestätigungs- und Testproblematik zuzu wenden. Wir 
werden dagegen ,das Pferd beim Schwanz aufzäumen' und mit dem letzteren 
beginnen: Der Grund dafür ist den Ausführungen in l.b und l.c zu ent- 




4 



Einleitung 



nehmen. Die v. Mises-Reichenbachsche Theorie, welche die statistischen 
Wahrscheinlichkeiten als Grenzwerte von Folgen relativer Häufigkeiten 
definiert (und daher von mir als Limestheorie der statistischen Wahrschein- 
lichkeit bezeichnet wird), ist zu starken Einwendungen ausgesetzt, als daß 
sie eine brauchbare begriffliche Basis abgeben könnte. Der Vorschlag von 
Braithwaite wiederum, die statistische Wahrscheinlichkeit als eine theo- 
retische Größe einzuführen, die durch eine Testregel zu charakterisieren ist, 
macht den Wahrscheinlichkeitsbegriff unendlich vieldeutig. Immerhin 
bildet der Braithwaitesche Vorschlag einen interessanten Vorläufer der 
Propensity-Interpretation von Popper, die an späterer Stelle (in 12. b) aus- 
führlich diskutiert wird. Bis einschließlich Abschnitt 11 stehen die Über- 
legungen somit unter einer Als-Ob-Konstruktion : Es wird stets so getan, 
als ob es so etwas wie eine theoretische Größe, genannt Statistische Wahr- 
scheinlichkeit oder Chance , gäbe. Und alle Ausführungen von Abschnitt 
2 — 10 gelten nur unter dieser wissenschaftstheoretischen Oberhypothese. 
Zur Rechtfertigung mag ein Analogiebild dienen : Wenn es stimmt, daß der 
Begriff der Kraft eine theoretische Größe ist, dann ist es — statt endlosen 
Nachgrübelns darüber, was die Kräfte eigentlich sind 4 und ob sie nicht 
vielleicht doch } durch Definition auf Beobachtbares zurückgeführt 4 werden 
können — zweckmäßiger, zunächst pragmatisch vorzugehen und nachzu- 
sehen, ,wie die Physiker mit diesem Begriff umgehen 4 . Ebenso finde ich es 
ratsamer, die nun schon endlosen Streitigkeiten darüber, ob und wie Wahr- 
scheinlichkeiten definierbar sind, zunächst zurückzustellen und ^u^usehen, wie 
man in der Statistik , insbesondere in der Test- und Schätzungstheorie, diese 
Begriffe handhabt . Allerdings kann es sich auch nur um eine Zurückstellung 
handeln, zumal ja die erwähnte Oberhypothese bei allen Überlegungen be- 
stimmend bleibt. Die Kontroverse Subjektivismus gegen Objektivismus wird in 
Abschnitt 12 geschildert. Ich bin sehr froh darüber, daß ich in 12. b die 
Arbeiten von Giere und Suppes auswerten konnte, die bei Drucklegung 
dieses Buches noch nicht veröffentlicht waren. Beide Autoren haben die 
Fruchtbarkeit des Popperschen Ansatzes durch Fortführung und Präzi- 
sierung seiner Ideen unter Beweis gestellt. Vor allem die beiden Arbeiten 
von Suppes haben mich davon überzeugt, daß auch die Auffassung von 
Hacking nicht zum Erfolg führen kann, den Begriff der statistischen Wahr- 
scheinlichkeit mittels einer Theorie der Stützung (support) adäquat zu 
charakterisieren. In den Gedanken von Suppes erblicke ich den wichtigsten 
Beitrag unter allen bisherigen Versuchen, den Begriff der statistischen 
Wahrscheinlichkeit als eine theoretische Größe einzuführen. Suppes war 
früher selbst überzeugter Bayesianer, der sich, wie er berichtet, nur über 
ständig nagende Zweifel vom betörenden Sirenengesang der großen 
personalistischen Wahrscheinlichkeitstheoretiker loszulösen vermochte. 

Eine kritische Diskussion der subjektivistischen ? Gegentheorie 4 wird 
in 12. a gegeben. Leider war es unmöglich, auf engem Raum eine wirklich 
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gerechte Darstellung dieser Theorie und ihrer großartigen Geschlossenheit 
zu liefern. Um das Bild dennoch einigermaßen zu vervollständigen, wurden 
zwei besonders wichtige Aspekte dieser Theorie im Anhang II im Detail 
behandelt. 

Der Leser möge sich durch den ungewöhnlichen Symbolismus, der 
im vierten Abschnitt eingeführt wird, nicht abschrecken lassen. Es handelt 
sich dabei nur um eine Methode zur simultanen Darstellung von theoretischem 
Hintergrundwissen und empirischen Befunden. Der dabei benützte Begriff 
der kombinierten statistischen Aussage stammt von Hacking. Doch wird dieser 
Begriff als ein geordnetes Paar (und nicht wie bei Hacking als ein geordne- 
tes Sextupel) konstruiert. Der hier verwendete Symbolismus hat den Vorteil, 
daß diese beiden Komponenten übersichtlich zutage treten: das Erstglied 
eines solchen Paares enthält die eigentliche statistische Hypothese (worunter 
stets eine Verteilungshypothese verstanden wird) ; das Zweitglied enthält den 
empirischen Befund. Dieses Zweitglied kann auf das tautologische Wissen 
zusammenschrumpfen. Im Erstglied kann statt von speziellen Hypothesen 
von bloßen Klassen von Verteilungen die Rede sein. Letzteres ist stets der 
Fall, wenn es sich um das Erstglied des statistischen Datums handelt. Daß 
die beiden Glieder einer kombinierten statistischen Aussage ihrerseits als 
geordnete Tripel eingeführt werden, hat seinen Grund darin, daß nicht nur 
die Propensity- Verteilung angegeben wird, sondern außerdem die experimen- 
telle Anordnung sowie der Versuchstyp, auf den sich diese Verteilung bezieht. 

In Anknüpfung an das Vorgehen Hackings wird im vierten Abschnitt 
zunächst eine 5 verdünnte* Version der komparativen Stüt^ungslogik von 
B. O. Koopman angegeben, und im darauffolgenden Abschnitt wird der 
dabei benützte komparative Begriff „ist besser gestützt als “ präzisiert. Der für 
diese Definition verwendete Schlüsselbegriff ist der auf R. A. Fisher zu- 
rückgehende Begriff der Likelihood, Die Stützungsrelation ist daher nicht 
probabilistischer Natur. Zwei Arten von theoretischen Beurteilungen wer- 
den unterschieden: die prognostischen und anderen epistemischen Ver- 
wendungen bereits akzeptierter statistischer Hypothesen, die sich auf die 
Ein^elfall-Regel stützen; und der statistische Stüt^ungsschluß , der bei gege- 
benem Hintergrundwissen die Auszeichnung einer unter mehreren mit- 
einander konkurrierenden statistischen Hypothesen aufgrund eines Likeli- 
hoodvergleiches im Licht akzeptierter Beobachtungsbefunde gestattet. 

Gegenüber der von Hacking entwickelten Theorie ergeben sich zwei 
wesentliche Unterschiede: Hacking leitet die Einzelfall-Regel sowie den 
statistischen Stützungsschluß aus einem noch allgemeineren Prinzip ab, 
welches er law of likelihood nennt. Dieses Prinzip ist jedoch inhaltlich inad- 
äquat. Wie gezeigt wird, ist es zwar sinnvoll, verschiedene statistische Hypo- 
thesen aufgrund derselben Beobachtungsdaten zu beurteilen (Stützungs- 
schluß), und außerdem sinnvoll, verschiedene mögliche singuläre Sachverhalte 
mittels derselben statistischen Hypothesen zu beurteilen (Einzelfall-Regel). 
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Hingegen ist es nicht sinnvoll, verschiedene statistische Hypothesen aufgrund 
von verschiedenen Beobachtungsbefunden miteinander zu konfrontieren. Ge- 
rade diese unerwünschte Konsequenz folgt jedoch aus Hac kings law of 
likelihood. Ihre Elimination gelingt durch Abschwächung dieses Gesetzes 
zur Likelihood- Regel , welche sich dann aber als nichts weiter erweist denn als 
eine konjunktive Zusammenfassung von Stützungsschluß und Einzelfall- 
Regel. Ein zweiter Unterschied ergibt sich dadurch, daß die Bedingungen für 
die korrekte Anwendung der Ein^elf all- Regel genauer analysiert werden. Zu 
diesem Zweck wird auf die Untersuchungen Hempels zurückgegriffen, 
allerdings über eine Umdeutung, die das Expükandum betrifft : Die Hempel- 
sche Explikation wird nicht als ein Versuch interpretiert, den Begriff der 
statistischen Erklärung zu präzisieren, sondern als ein Versuch, den Be- 
griff der rationalen Begründung von Annahmen über nicht akzeptierte 
singuläre Sachverhalte mittels statistischer Hypothesen zu explizieren, also 
gerade die korrekte Anwendung der Einzelfall-Regel. Da es sich hierbei 
um ein schwieriges Spezialproblem handelt, wurde seine Diskussion aus dem 
Teil III herausgenommen und unter dem Thema „Statistische Begründung“ 
in den Teil IV verlagert. 

Nach einer Schilderung des stetigen Falles werden in 6. d neuere Arbei- 
ten, vor allem von Barnard, Diehl und Sprott diskutiert, in denen zum 
Unterschied von der Maximum-Likelihood-Methode Fishers der ge- 
samte Wertverlauf der Likelihood- Funktion untersucht und als , Plausibilitäts - 
Verteilung gedeutet wird. In 6. e erhält der Leser einen Vorgeschmack auf die 
Konfrontation mit dem Subjektivismus. Den Ausgangspunkt der Diskus- 
sion bildet eine ausführliche Schilderung des Theorems von Bayes in der 
diskreten wie in der stetigen Fassung. Das Facit lautet, daß man den Kon- 
flikt nicht mittels einer Analyse der Leistungsfähigkeit des Theorems von 
Bayes (Merkregel: „die Aposteriori-Wahrscheinlichkeit ist proportional 
der mit der Likelihood multiplizierten Apriori- Wahrscheinlichkeit“) be- 
heben kann, sondern daß man umgekehrt in dem Konflikt „Objektivismus 
oder Bayesianismus“ bereits Stellung bezogen haben muß, um danach die 
Leistungsfähigkeit dieses Theorems zu würdigen. 

Bei den Begriffen „Zufall“, „Stichprobenauswahl“, „Test“ sowie bei der 
Erörterung der Schätzungsprobleme wird zunächst weitgehend an die Ge- 
danken Hackings angeknüpft. Die Problematik der Testtheorien wird an 
den Begriffen Macht eines Tests und Umfang eines Tests sowie mittels einer 
Konfrontation der Testtheorie von Neyman-Pearson mit der von Hacking vorge- 
schlagenen Likelihood-Testtheorie aufgezeigt. Der Umstand, daß nicht nur 
die zu testende Nullhypothese mit einer Klasse von Alternativhypothesen 
zu vergleichen ist, sondern daß jede Testaufgabe unter der Gültigkeitsan- 
nahme statistischer Oberhypothesen (Hintergrundwissen) gestellt werden 
muß, erzeugt — abgesehen vom Problem der Wahl der geeigneten Test- 
theorie — Komplikationen, die für statistische Hypothesen spezifisch 
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sind. Der Prüfende kann 2.B. erstens doppeltes Glück haben und sowohl die 
richtigen Oberhypothesen (2. B. Unabhängigkeit und parametrische Ver- 
teilungsform) als auch die richtige Nullhypothese (2. B. den Parameter 
einer Binomialverteilung) erraten. Er kann 2weitens , Glück im Allge- 
meinen und Pech im Spe2iellen‘ haben, d. h. die richtige Oberhypothese 
wählen, bei der Nullhypothese dagegen daneben greifen. Er kann drittens 
vollkommen Pech haben und bereits falsche Oberhypothesen anset2en 
(2. B. den Parameter einer Binomialverteilung heraus2ubekommen suchen, 
wo in Wahrheit eine hypergeometrische Verteilung gegeben ist). Wie lauten 
die Kriterien, um bei negativen empirischen Indrnen 2wischen dem 2weiten 
und dem dritten Fall 2u unterscheiden? 

Im Abschnitt 10 über Schät^ungstheorie werden 2unächst in Ergän2ung 
2u den in Kap. B und Kap. C von Teil 0 angeführten Begriffen einige tech- 
nische Hilfsmittel geschildert, die man in der modernen Statistik bei der 
Behandlung dieser Materie verwendet. Die wissenschaftstheoretische Dis- 
kussion beginnt in 10. d. Grundlegend ist die Feststellung einer Äquivo- 
kation im Begriff der Schät2ung. Darunter können entweder praktische 
Dispositionen (von Unternehmern, Politikern, Fußballtrainern, Feldher- 
ren) oder aber theoretische Vermutungen verstanden werden. Ersteres wird 
S chät^ungshandlung genannt, let2teres theoretische Schätzung. Die Gütekri- 
terien für Schät2ungen lauten in beiden Fällen anders. Der subjektivistischen 
Theorie wird vorgeworfen, daß sie nur Schät2handlungen untersucht, unter 
vollkommener Ausklammerung des Problems der theoretischen Schät2ung. 
Die Problemsituation kompiliert sich 2usät2lich dadurch, daß selbst 
theoretische Schät2ungen unter 2wei gan2 verschiedenen Aspekten beur- 
teilt werden können: auf der einen Seite unter Gesichtspunkten der Opti - 
malität auf lange Sicht (wie 2. B. Erwartungstreue, relative Effi2ien2 usw.), 
auf der anderen Seite unter dem Gesichtspunkt der Bestätigung oder Stützung. 
Das Problem ist unterbestimmt, solange keine Entscheidung für das eine 
oder das andere Verfahren getroffen ist; denn die beiden Kategorien von 
Gütekriterien können, aber müssen nicht 2u denselben Resultaten führen. 
Wie Hacking dargelegt hat, kann die theoretische Schät2ungsproblema- 
tik selbst bei Beschränkung auf gute Schät2ungen im Sinn der gut gestützten 
Schät2ungen nicht vollständig auf das Problem der gut gestüt2ten Hypo- 
thesen 2urückgeführt werden. Der Gedanke ,nah beim wahren Wert 
liegen* er2eugt neue Probleme, die den Begriff der guten Schät2ung frag- 
würdig machen. Nur teilweise werden diese Probleme mittels des Begriffs 
der gleichmäßig besseren Schätzung bewältigt. Neben der Erörterung verschie- 
dener spe2ieller Probleme wird schließlich der Hackingsche Versuch dis- 
kutiert, eine Parallele 2wischen der Testtheorie von Neyman-Pearson und 
der Schät2ungstheorie von Savage her2ustellen. 

Die statistischen Schät2ungstheorien werden sich vermutlich noch so- 
lange in einem unbefriedigenden Zustand befinden, als keine adäquate 
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Theorie des menschlichen Handelns verfügbar ist und als man keine besseren 
Einsichten in das Verhältnis von 5 Wissen und Handeln c gewonnen hat als bis 
zum heutigen Tage. 

Eine kritische Diskussion der Likelihood-Stützungs- und -Testtheorie 
erfolgt in Abschnitt 11. In diesem Rahmen kommt auch ein bislang nicht 
behobenes Paradoxon von Kerridge zur Sprache. Am Ende des Ab- 
schnittes wird die Vermutung ausgesprochen, daß ein adäquater Stützungs- 
begriff aus einem fünfstelligen Relationsschema hervorgeht, in welchem außer 
auf die zur Diskussion stehende Nullhypothese und die verfügbaren em- 
pirischen Daten auf eine Klasse von Alternativhypothesen, auf ein Hinter- 
grundwissen und außerdem auf eine Testtheorie Bezug genommen wird. 

In 12. a wird die moderne subjektivistische Theorie soweit kritisch dis- 
kutiert, als dies ohne größere technische Hilfsmittel möglich ist. Da auf 
diese Weise, wie bereits erwähnt, dem Subjektivismus keine vollkommene 
Gerechtigkeit widerfahren kann, wurden zwei besonders wichtige Aspekte 
getrennt im Anhang II behandelt : das subjektivistische Konzept der Objek- 
tivität als Gewinnung inter subjektiver Übereinstimmung über das Temen aus der 
Erfahrung , sowie das Repräsentationstheorem von de Finettt, durch welches 
die Begriffe der objektiven statistischen Wahrscheinlichkeit und der Hypothesen- 
wahrscheinlichkeit als überflüssig erwiesen werden sollen. In diesem Anhang 
wurde großes Gewicht darauf gelegt, dem Leser den intuitiven Zugang zu 
zwei grundlegenden Begriffen des de Finettischen Vorgehens zu erleich- 
tern: dem Begriff der Mischung von Bernoulli-Wahrscheinlichkeiten und dem 
Begriff der Vertauschbar keit von Ereignissen (bzw. der Symmetrie von Ereig- 
nisklassen und Wahrscheinlichkeitsmaßen). 

Neuere Arbeiten über die Deutung der statistischen Wahrscheinlichkeit 
als einer theoretischen Größe werden in 12. b diskutiert. Den Ausgangspunkt 
bildet die Propensity-Interpretation von Popper. In den Arbeiten von Giere 
und Suppes werden Unklarheiten und Lücken des Popperschen Ansatzes zu 
beheben versucht. Den wichtigsten Beitrag liefert die Pro pensity- T heorie des 
radioaktiven Zerfalls von Suppes, die es erstmals gestattet, in Analogie zu 
anderen Metrisierungsfällen ein Repräsentationstheorem zu beweisen. Die 
für ein richtiges Verständnis der Theorie von Suppes erforderlichen Kennt- 
nisse aus der Theorie der Metrisierung werden im Anhang III vermittelt: In 
einem einleitenden Abschnitt dieses Anhanges wird die axiomatische Theorie 
der extensiven Größen behandelt, auf welche in dem dort angegebenen Stan- 
dardwerk zu Metrisierungsfragen von Krantz et al. die Metrisierung quali- 
tativer Wahrscheinlichkeitsfelder zurückgeführt wird. Der zweite Abschnitt 
behandelt diese für die wichtigsten Falltypen. Die Überlegungen von 
Suppes bringen zwei wichtige Ergänzungen zu den früheren Diskussionen : 
Erstens wird darin gezeigt, daß es nicht genügt, den Begriff der Chance oder 
der Propensity, wie z. B. bei Hacking, durch eine Stützungstheorie für 
statistische Hypothesen zu charakterisieren, sondern daß eine eigene quali- 
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tative Propensity-Theorie erforderlich ist. Zweitens stellt sich heraus, daß die 
Gültigkeit der Kolmogoro ff- Axiome bei Zugrundelegung der Propensity- Deutung 
keine Selbstverständlichkeit ist: die Quanten- Propensity genügt vermutlich 
nicht diesen Axiomen. Dies erkennt man erst, wenn man die Quanten- 
physik als eine genuine statistische Theorie betrachtet. 

Zu den umstrittensten Begriffen der Statistik gehört die Fidu^iahvahr- 
scheinlichkeit von R. A. Fisher. (Carnap erwähnte einmal in einem persön- 
lichen Gespräch, das Fiduzial- Argument sei ihm durchaus rätselhaft und er 
wisse nicht, ob und wie man dieses Argument in logisch korrekter Weise 
rekonstruieren könne.) Im letzten Abschnitt von Teil III wird versucht, 
die Exposition des Fiduzial-Argumentes, welche Hacking gegeben hat, 
in etwas verbesserter Form darzustellen, da auch die Hackingsche Rekon- 
struktion einige Unklarheiten enthält. Die Wiedergabe erfolgt kommentar- 
los, jedoch in der Hoffnung, daß der Fisher sehe Gedankengang stärkere 
kritisch-wissenschaftstheoretische Beachtung finden möge. Für die Heraus- 
arbeitung der logischen Struktur erwies sich die Beschränkung auf den 
diskreten Fall als zweckmäßig. Der Grundbegriff ist ein Begriff der Hypo- 
thesenwahrscheinlichkeit , den man in unmittelbare Beziehung setzen kann zum 
quantitativen Bestätigungsbegriff der ursprünglichen Carnapschen Theorie 
(Carnap I). Der Vergleich mit der Bestätigungstheorie Carnaps liefert zwei 
überraschende Resultate: Zwar ist die Methode Fishers nicht universell 
anwendbar; doch ist sie weder auf Sprachen oder begriffliche Systeme von 
einfacher Struktur beschränkt, wie die Theorie Carnap I, noch gibt es ein 
Analogon zu dem Carnapschen Problem der Auswahl einer bestimmten 
metrischen Bestätigungsfunktion. Die Hinzufügung zweier Axiome zu den 
Grundaxiomen genügt, um die Werte von Fiduzial- Wahrscheinlichkeiten 
zu ermitteln. 

Teil IV enthält eine kritische Diskussion der beiden miteinander 
konkurrierenden Theorien der statistischen Erklärungen : der Theorie von 
Hempel und der Theorie von Salmon. Dreierlei wird zu zeigen versucht: 
(I) Es handelt sich dabei nur um scheinbare Konkurrenten, da die Explikanda 
des Hempelschen und des Salmonschen Explikates völlig verschieden sind . (II) 
Keines der beiden Explikate sollte man statistische Erklärung nennen. (III) 
Für beide Explikate werden Vereinfachungen und Präzisierungen vorgeschla- 
gen. 

Den Ausgangspunkt der Untersuchung bilden elf Schwierigkeiten, 
von denen nach Ausklammerung des GooDMAN-Paradoxons, der Ausschal- 
tung peripherer Probleme und nach verschiedenen Problemreduktionen 
drei große Schwierigkeiten übrigbleiben: das Problem, daß sich entgegen 
aller rationalen Voraussage prinzipiell immer Unwahrscheinliches ereignen 
kann; die von Hempel als Mehrdeutigkeit der statistischen Systematisierung 
bezeichnete Schwierigkeit; die Paradoxie, die bei Berufung auf Gesetze ent- 
steht, die in irrelevanter Weise spezialisiert worden sind. Die erste dieser 
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Schwierigkeiten ist von Jeffrey, die letzte von Salmon zum Angelpunkt 
kritischer Betrachtungen gemacht worden. 

Drei voneinander unabhängige Überlegungen werden dafür angegeben, 
das Hempelsche Explikat nicht als statistische Erklärung von Tatsachen zu 
interpretieren, sondern als Explikat für die rationale Begründung von Proposi- 
tionen über (noch) nicht akzeptierte Tatsachen , d. h. als Explikat der Einzelfall- 
Regel zu deuten: erstens eine immante Kritik des Weges, der zur Hempel- 
schen Explikation führte (welche im Kap. IX, Abschnitt 13 von Bd. I ge- 
schildert worden ist) ; zweitens intuitive Gegenbeispiele, die zeigen sollen, 
daß (retrodiktive oder prognostische) Begründungen von singulären Hypothesen 
mit Hilfe von statistischen Gesetzen im nachhinein (d. h. bei Eintritt eines 
5 Wissens um die Richtigkeit der singulären Hypothese 4 ) nicht als Erklärun- 
gen von Fakten annehmbar sind; drittens die , Paradoxie des Unwahrschein- 
lichen 4 , welche es unmöglich macht , bei Eintritt von etwas Unwahrscheinlichem eine 
Erklärung heischende Warum-Frage durch Berufung auf eine statistische Gesetz- 
mäßigkeit z u beantworten . Dann aber, so scheint es, kann auch bei Eintreten 
des wahrscheinlichen Ereignisses keine Erklärung gegeben werden, da 
nicht ein Gesetz, sondern der Zufall die Differenzierung vornimmt. (Viel- 
leicht ist dies eine der intuitiv unbehebbaren 5 Paradoxien 4 , mit denen wir 
bei indeterministischen Systemen konfrontiert sind.) In diesem Zusammen- 
hang wird auf die Wichtigkeit der sog. Leibniz~B edingung als einer Minimal- 
bedingung für jede adäquate Erklärung hingewiesen. Der Umstand, daß 
ein gegen die ursprüngliche Explikation von Hempel vorgebrachtes Gegen- 
beispiel von Grandy auf einem Irrtum beruhte und nur eine Pseudoschwie- 
rigkeit erzeugte, sowie die Voraussetzung, daß nur ein Begründungsbegriff 
zu präzisieren ist, führen zu einer Vereinfachung der Explikation. 

Salmon vertritt in seiner ,Gegentheorie 4 zur Hempelschen Theorie die 
Auffassung, daß statistische Erklärungen nicht als Argumente von bestimmter 
Art zu deuten sind. Der Einwand gegen die Bezeichnung „Erklärung 44 für 
das Salmonsche Explikat ist sehr elementar: Man kann nicht angeben, was 
denn der Gegenstand dieser Erklärung ist. Die gegenteilige Auffassung von 
Salmon wurde durch eine Verwechslung hervorgerufen, nämlich die Ver- 
wechslung der Klasse der Familie der Relevanzbegriffe im Carnapschen 
Sinn mit dem Spezialfall der positiven Relevanz. Der Fall der negativen Rele- 
vanz (, Aposteriori-Wahrscheinlichkeit 4 < 5 Apriori-Wahrscheinlichkeit 4 ) führt 
daher zu einer Absurdität: als Erklärung dafür, daß dieses x, welches 
ein F ist, auch ein G ist, müßte Salmon die Feststellung zulassen, daß x 
außer F weitere Eigenschaften besitzt, die es viel unwahrscheinlicher machen , 
daß x auch ein G ist, als man ursprünglich vermuten konnte. 

Salmon hat in Wahrheit etwas ganz anderes geliefert, nämlich den An- 
satz für eine Explikation einer statistischen Tiefenanalyse (von optimaler und 
zugleich von minimaler Struktur), die zu der zunächst allein verfügbaren 
Oberflächenanalyse hinzutritt. Was dadurch gewonnen wird, bezeichne ich 
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nach dem terminologischen Vorschlag von Prof. Y. Bar-Hillel als sta- 
tistisches Situationsverständnis . Nachdrücklich sei darauf hingewiesen, daß 
dieser Ausdruck nur im Kontext der dabei entwickelten Theorie verwendet 
werden sollte. 

Die im Bd. I angestellten Analysen zum Begriff der Kausalität waren 
in einer wichtigen Hinsicht lückenhaft geblieben : Es wurde dort zwar auf 
die Wichtigkeit der Unterscheidung zwischen , Seinsgründen* und 5 bloßen 
Symptomen* hingewiesen; es konnten jedoch keine scharfen Kriterien für 
diese Unterscheidung gegeben werden. Ein wichtiges Nebenresultat der 
Diskussion der Salmonschen Theorie besteht darin, einen Weg aufzuzeigen, 
wie diese Lücke auszufüllen ist. Im statistischen Fall wird ein komparativer 
Begriff eingeführt, der es z. B. ermöglicht, eine Begründung dafür zu geben, 
warum ein Luftdruckfall für darauffolgende Wetterverschlechterung in 
höherem Maße von kausaler Relevan % ist als ein Barometerfall, der demgegen- 
über als 5 bloß symptomatisch* erscheint. Der dafür benötigte kausale 
Relevanzbegriff wird im statistischen Fall auf den Begriff der statistischen 
Relevanz zurückgeführt. Darüber hinaus wird angedeutet, wie die Über- 
tragung auf den deterministischen Fall erfolgen kann. In beiden Fällen 
wird auf den von Salmon wiederaufgegriffenen Reichenbachschen Gedan- 
ken der Abschirmung zurückgegriffen. Der Teil IV schließt mit einer kurzen 
Betrachtung der verschiedenen logischen Möglichkeiten, den Ausdruck 
„statistische Erklärung** zu definieren. 

Anhang II und Anhang III wurden bereits erwähnt. Anhang I enthält 
eine vereinfachte und verbesserte Variante der im ersten Band versuchten 
Explikation des paradoxen* Begriffs des Indeterminismus vom zweiten Typ, 
bei dem Indeterminismus vorliegt, obwohl alle Gesetze, einschließlich der 
Ablaufgesetze, strikte (deterministische) Gesetze sind. 

Insgesamt gibt es drei 9 Paradoxien des Indeterminismus*. Die eine be- 
steht in der am Schluß von Teil IV gewonnenen Erkenntnis, daß man in 
einem indeterministischen System nichts erklären kann. Die zweite ist eine 
Folge der Tatsache, daß quantenphysikalische Wahrscheinlichkeitsfelder 
keine Wahrscheinlichkeitsfelder im Standardsinn bilden. Die dritte ergibt sich 
daraus, daß die moderne Physik nicht Fälle von indeterministischen 
Systemen mit statistischen Ablaufgesetzen beschreibt, sondern Fälle des 
Indeterminismus vom \ weiten Typ zum Gegenstand hat. Nur die erste Para- 
doxie* gilt für alle logisch möglichen Arten des Indeterminismus. 




Teil III 



Die logischen Grundlagen 
des statistischen Schließens 




1. Jenseits von Popper und Carnap* 

l.aProgramm und Abgrenzung vom Projekt einer induktiven Logik. 

In diesem dritten Teil des Buches sollen Untersuchungen über die logischen 
Grundlagen dessen angestellt werden, was in der Fachliteratur „Statistisches 
Schließen“ genannt wird. Es geht dabei vor allem um die Beurteilung und 
Prüfung statistischer Hypothesen sowie um statistische Schätzungen . 

Wie bereits in der Einleitung erwähnt, werden wir für viele Überlegun- 
gen an die Gedanken anknüpfen, die Hacking in seinem Buch [Statistical 
Inference] entwickelt hat. In diesem einleitenden Abschnitt werden wir uns 
darauf beschränken, einige grundsätzliche Betrachtungen über die Pro- 
bleme des statistischen Schließens und über die Methoden zu ihrer Behand- 
lung anzustellen. 

Man wird kaum fehlgehen in der Vermutung, daß die meisten wissen- 
schaftstheoretisch interessierten Leser mit den Projekten von Carnap und 
(oder) von Popper vertraut sind und daher mit der bestimmten Erwartung, 
um nicht zu sagen: Voreingenommenheit, an die Lektüre herantreten wer- 
den, daß hier eines dieser Projekte oder eine ^Kombination" beider auf die 
Behandlung statistischer Hypothesen ausgedehnt werden solle. Dies ist nicht 
der Fall Die folgenden Ausführungen unterscheiden sich grundsätzlich so- 
wohl von Poppers Theorie der Bewährung als auch von Carnaps Induk- 
tiver Logik. Es erschien mir daher als ratsam, diese einleitenden Bemerkun- 
gen so abzufassen, daß eine klare Abgrenzung nach beiden Richtungen er- 
folgt. Dadurch dürfte dem Leser die geistige Umorientierung erleichtert 
werden, sofern er an die Lektüre als ,Popperianer" oder als ,Carnapianer" 
herantritt. 

Nachdrücklich möchte ich jedoch betonen, daß es sich hierbei nur 
um Abgrenzungen handelt, die dazu dienen sollen, ein vorbereitendes Ver- 
ständnis zu erzeugen. Die Ausführungen sind dagegen nicht polemisch gemeint , 
weder in bezug auf Carnap noch in bezug auf Popper. Und da sie nicht als 
Polemiken intendiert sind, sollen die Bemerkungen über die Unterschiede 
zu den Projekten dieser beiden Denker jeweils innerhalb eines systematischen 
Kontextes erfolgen. Dies ist der Grund, warum die Abgrenzung zur Pop- 
perschen Testtheorie erst im Unterabschnitt l.d zur Sprache kommen 
wird. 

Aus Gerechtigkeitsgründen muß allerdings betont werden, daß die fol- 
genden Ausführungen dem Geiste nach größere Ähnlichkeit mit der Popper- 
schen als mit der Carnapschen Denkweise haben werden, und zwar aus drei 
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Gründen: erstens wegen der ausdrücklichen Bezugnahme auf ein Hintergrund - 
wissen (background knowledge) in Gestalt akzeptierter statistischer Ober- 
hypothesen; zweitens wegen der systematischen Einbeziehung miteinander 
rivalisierender Alternativhypothesen 1 ; und drittens vor allem wegen des nicht- 
probabilistischen Charakters des komparativen Bestätigungsbegriffs, der später 
eingeführt wird. Trotzdem erschiene es mir als ein sehr gequältes Unter- 
fangen, die zunächst ganz auf deterministische Hypothesen zugeschnittene Theorie 
Poppers — wie immer sie im einzelnen präzisiert werden mag 2 — nach- 
träglich irgendwie auf statistische Hypothesen 3 auszudehnen‘ oder sie so zu 
verallgemeinern*, damit sie auch auf derartige Hypothesen übertragbar 
wird. 

Noch gequälter allerdings erschiene es mir, Carnaps Ideen zu einer in- 
duktiven Logik dafür benützen zu wollen, die logischen Grundlagen der 
Theorie des statistischen Schließens zu klären. Diese Feststellung ist ganz 
unabhängig von der in Teil II vorgeschlagenen entscheidungstheoretischen 
Umdeutung der Carnapschen Theorie. Denn als ein theoretisches Projekt, 
nämlich als eine Metatheorie der Hypothesenbeurteilung (oder um mit Carnap 
zu sprechen: als eine Theorie der Bestätigung) ist diese Theorie schon ganz all- 
gemein mit schwerwiegenden Nachteilen, wenn nicht sogar mit unlösbaren 
Problemen behaftet 3 , die bei der Übertragung auf reichere Sprachen, in 
denen statistische Hypothesen formulierbar sind, nur noch deutlicher in den 
Vordergrund treten würden. 

Die wichtigsten Vorarbeiten zum statistischen Schließen sind von Fach- 
leuten auf dem Gebiet der mathematischen Statistik erbracht worden. Die 
nächstliegende Aufgabe für den heutigen Wissenschaftstheoretiker besteht 
darin zu versuchen, diese höchst interessanten Gedanken, welche zum Teil 
auf enormen Denkleistungen beruhen, zu analysieren, sie begrifflich zu 
durchdringen und ihre logische Struktur klarzulegen. Es scheint mir, daß 
man nur bei der Befolgung der Devise : „Eher besser verstehen als besser ma- 
chen!“ dazu beitragen kann, die ungeheure Kluft zu überbrücken , die noch immer 
Zwischen philosophischen Theorien der Bestätigung ( oder der Bewährung) auf der 
einen Seite und Spezialuntersuchungen z um statistischen Schließen auf der anderen 
Seite besteht. Natürlich sollte einen dies nicht davon abhalten, dort Kritik zu 
üben, wo man bei der logischen Analyse auf Unklarheiten, vielleicht sogar 
auf Fehler, oder auf begriffliche Konfusionen stößt, wie z. B. auf die Ver- 
mengung von praktischen und theoretischen Problemstellungen im Rah- 
men der statistischen Schätzungstheorie. 

1 Gemeint ist: zum Unterschied vom Vorgehen Carnaps werden niemals 
isolierte Hypothesen beurteilt, sondern stets nur Hypothesen im Verhältnis zu einer 
Klasse mit ihr rivalisierender Alternativhypothesen. 

2 Bezüglich solcher Präzisierungsmöglichkeiten vgl. meinen Aufsatz [In- 
duktion], insbesondere S.31ff. 

3 Vgl. den Aufsatz [Induktion], insbesondere S.56ff. 




Jenseits von Popper und Carnap* 



17 



Es sollen jetzt einige wesentliche Merkmale der folgenden Betrachtun- 
gen hervorgehoben werden. Die Abgrenzung gegenüber Carnaps Projekt 
erfolgt dann an geeigneten Stellen. 

(i) Die Ausdrücke „Induktion“ und „induktiv“ werden wir an keiner 
Stelle benützen. Eines der Motive dafür ist in der Einleitung bereits ange- 
klungen: Es ist zwecklos, sich mit einem Versuch zur Lösung des sog. In- 
duktionsproblems herumzuschlagen. Womit wir es hier zu tun haben, ist 
eine spezielle Familie von theoretischen Nachfolgerproblemen %um Induktionsproblem , 
d. h. von solchen Problemen, welche an die Stelle des Induktionsproblems 
zu treten haben. Dazu gehört u. a. die Einführung eines adäquaten Be- 
stätigungsbegriffs. Um auch nur terminologische Anklänge an vorliegende 
Bestätigungs- oder Bewährungstheorien zu vermeiden, werden wir von 
Stützung sprechen. Ich habe zwar keine prinzipielle Einwendung dagegen, 
wenn jemand vor den später zu explizierenden komparativen Stützungsbe- 
griff das Beiwort „induktiv“ einfügt. Ich könnte dazu nur zweierlei be- 
merken: erstens handelt es sich dabei um einen überflüssigen Zusatz, den 
man ebenso gut weglassen kann; zweitens birgt der Gebrauch dieses Bei- 
wortes die Gefahr in sich, daß es zu einer weltanschaulichen Leerformel 
wird, da vielleicht dem Leser oder Hörer durch hinreichend oftmalige Wieder- 
holung irgendeine der zahlreichen Varianten von induktiven Entdeckungs- 
oder Schlußtheorien insinuiert wird. 

Der tieferliegende Grund für die Vermeidung der Induktionstermino- 
logie ist aber ein anderer: Es soll bei Kennern der Bemühungen Carnaps 
nicht der irrige Eindruck erweckt werden, als handele es sich darum, irgend- 
eine spezielle Form der induktiven Logik auf die Statistik anzuwenden. 
Diese Feststellung bildet, wenn man sie zu den Bermerkungen des ersten 
Absatzes hinzunimmt, keinen Pleonasmus. Denn auch wenn man Carnaps 
Theorie im Sinne seines eigenen Selbstverständnisses deutet, ist es höchst 
fraglich, ob und inwieweit man in ihr überhaupt eine Fortsetzung der Ver- 
suche zur Lösung des , Problems der Induktion* erblicken kann. Ein einzi- 
ger Hinweis möge dafür genügen: Während es sich nach traditioneller Auf- 
fassung um die Rechtfertigung von Schlüssen handelt, geht es Carnap um 
die Gewinnung von C-Aussagen , bei denen man im Normalfall — d. h. 
bei Nichterfüllung der Forderung des Gesamtdatums — die ,Conclusio* 
nicht von der 5 Prämisse* abtrennen darf. 

(II) Die Beschäftigung mit dem statistischen Schließen hat eine über 
die Untersuchung der Stützung und Prüfung statistischer Hypothesen 
hinausgehende Bedeutung. Wenn wir in Verallgemeinerung des Begriffs der 
deterministischen Gesetzesaussage unter deterministischen Aussagen Sätze 
verstehen, die beliebig viele Quantoren und darunter mindestens einen 
(nichtleeren) Allquantor enthalten, so können wir sagen: Die auf Prüfung 
statistischer Hypothesen gerichteten metatheoretischen Untersuchungen 
können auch für den deterministischen Fall als paradigmatisch angesehen werden , so- 
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fern es sich dabei um weder verifizierbare noch falsifizierbare komplexe 
Sätze handelt. Wenn wir uns z. B. entscheiden sollen, eine Aussage anzu- 
nehmen oder zu verwerfen, die sowohl unbeschränkte Allquantoren als auch 
unbeschränkte Existenzquantoren enthält — hier kurz gemischte Aussage ge- 
nannt — , so droht uns, ebenso wie im statistischen Fall, eine doppelte Ge- 
fahr : Es kann sich nicht nur ereignen, daß irrtümlich Falsches akzeptiert wird , 
sondern ebenso, daß man irrtümlich Wahres verwirft . Während aber in ein- 
schlägigen wissenschaftstheoretischen Abhandlungen nur mehr oder weniger 
vage Bemerkungen über die indirekte positive und negative Bestätigung 
gemischter Sätze zu finden sind, trifft man in der statistischen Fachliteratur 
auf viel genauere Aussagen über die Prüfung und Stützung statistischer 
Hypothesen, insbesondere auch über optimale Teststrategien angesichts der 
beiden genannten Irrtumsgefahren. In dieser Situation besteht die erste 
Aufgabe des Philosophen darin, Feststellungen von Statistikern über die 
beiden Irrtumsmöglichkeiten und ihre Wahrscheinlichkeiten, über Umfang 
und Macht eines Tests etc. auf ihren Sinn, auf ihre Brauchbarkeit und Be- 
gründbarkeit hin zu überprüfen, ferner die miteinander konkurrierenden 
Testtheorien kritisch zu vergleichen und die Reichweite ihrer Gültigkeit 
abzustecken. 

(in) Als ein wichtiger Begriff wird sich der des statistischen Datums 
erweisen. Dieser Begriff fällt nicht mit dem in der Literatur, insbesondere 
auch bei Carnap, oft gebrauchten Term „Erfahrungsdatum“ oder „Beob- 
achtungsdatum“ (“observational evidence”) zusammen, auch nicht mit der 
Spezialisierung dieses Begriffs auf den Fall von Beobachtungsresultaten, 
mittels derer statistische Hypothesen geprüft werden. Vielmehr wird der 
Ausdruck „statistisches Datum“ in einer viel allgemeineren Bedeutung ge- 
nommen. Im Normalfall werden die statistischen Daten nicht nur Beob- 
achtungsresultate, sondern selbst wiederum statistische Hypothesen enthalten. 

Auf den ersten Blick könnte es scheinen, daß ein so konstruierter Be- 
griff des statistischen Datums die Gefahr eines Zirkels oder eines unend- 
lichen Regresses in sich berge. Wir geben daher zunächst eine kurze allge- 
meine Erläuterung und illustrieren hierauf den Sachverhalt an zwei ein- 
fachen Beispielen, je eines für den diskreten und für den stetigen Fall. 
Ein vorläufiges Verständnis dessen, was unter einem statistischen Da- 
tum gemeint sein soll, ist deshalb wichtig, weil ohne diesen Begriff eine 
präzise Rekonstruktion des Vorgehens der Statistiker bei der Prüfung von 
Wahrscheinlichkeitshypothesen gar nicht möglich sein dürfte. 

Wenn wir eine statistische Hypothese h beurteilen, werden wir uns in 
der Regel auf zweierlei Wissenskomponenten stützen, die wir als gültig 
voraussetzen. Die eine Komponente besteht aus relevanten Beobachtungs- 
daten , z. B. den beobachteten Wurfergebnissen nach n Würfen. Die andere 
Komponente besteht aus dem vorausgesetzten Hintergrundwissen ( 'back - 
ground knowledge ). Dieses Hintergrundwissen ist seinerseits darstellbar als 
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eine Klasse von statistischen Hypothesen, die von allgemeinerer Natur sind 
als die zur Beurteilung vorgelegte Hypothese h . Wegen ihrer größeren All- 
gemeinheit nennen wir die zum background knowledge gehörenden An- 
nahmen auch die als gültig vorausgesetzten statistischen Oberhypothesen bezüglich 
der z u beurteilenden Hypothesen h. Wenn aus dem Kontext eindeutig hervor- 
geht, welche Hypothese die zu beurteilende ist, so lassen wir die Wendung 
„bezüglich der zu beurteilenden Hypothese h“ fort. Auf die Wendung „als 
gültig vorausgesetzt“ verzichten wir generell. Auf diese Weise wird „sta- 
tistische Oberhypothese(n)“ ein mit dem unschönen deutschen Wort 
„Hintergrundwissen“ synonymer Ausdruck und kann daher für diesen 
letzteren substituiert werden. 

Zwischen Beobachtungs- oder Erfahrungsdaten und Hintergrundwissen 
besteht zwar ein prinzipieller Unterschied in formaler , nicht jedoch in 
episte mologischer Hinsicht. Die Erfahrungsdaten bestehen aus individuellen 
Tatsachen und werden daher durch Molekularsätze beschrieben, auch 
singuläre Sätze genannt; wir nennen sie akzeptierte singuläre Erfahrungssätze* 
Das Hintergrundwissen hingegen wird in allgemeinen statistischen Hypothesen 
festgehalten; es besteht also aus Gesetzesannahmen, mögen dies auch keine 
deterministischen Hypothesen sein. Gäbe es ein absolut sicheres Beobach- 
tungswissen, so bestünde zwischen Erfahrungsdaten und Oberhypothesen 
neben dem formalen auch ein epistemologischer Unterschied. Wie erstmals 
Popper mit Nachdruck betont hat, gibt es keine absolut sichere Basis der 
Erfahrungswissenschaften : Jeder Basissatz — bzw. in unserer Sprechweise: 
jeder singuläre Erfahrungssatz — kann selbst einer Prüfung unterzogen 
werden, sofern begründete Zweifel an seiner Richtigkeit auftauchen. Darin 
kommt nur die Tatsache zum Ausdruck, daß die sog. Basis der Erfahrungs- 
erkenntnis kein absolut sicheres Fundament darstellt, sondern daß auch in 
ihr eine prinzipiell unbehebbare* hypothetische Komponente steckt. Ana- 
loges gilt für die vorausgesetzten statistischen Oberhypothesen. Hier muß 
nur zusätzlich vorausgesetzt werden, daß das für statistische Hypothesen zu 
beschreibende Testverfahren auch auf die vorausgesetzten Oberhypothesen 
anwendbar ist, sobald diese in Zweifel gezogen werden. 

Vom rein logischen Standpunkt können sowohl Erfahrungsdaten als 
auch Hinter grundwissen auf das tautologische Wissen zusammenschrump- 
fen. Der Normalfall ist dies allerdings nicht, insbesondere nicht in bezug auf 
die Oberhypothesen. Auch dies hat Popper mehrfach betont, besonders 
deutlich auf S. 52 von [Dangers] mit den Worten: “We approach everything 
in the light of a preconceived theory”. Die , bereits konzipierte Theorie* be- 
steht im gegenwärtigen Fall aus den vorausgesetzten statistischen Ober- 
hypothesen. 

Neuartig ist nur die formale Behandlung der in den beiden letzten Ab- 
sätzen skizzierten Gedanken. Während die bisherige Schilderung es nahe- 
legen würde, drei Faktoren zu unterscheiden: die zu beurteilende(n) sta- 
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tistische(n) Hypothese(n), die akzeptierte Erfahrungsbasis und das akzep- 
tierte Hintergrundwissen, werden wir die beiden letzten Faktoren als gleich- 
wertige Komponenten des statistischen Datums behandeln. Wie dies technisch 
möglich ist, soll später expliziert werden. Hier genüge die Andeutung, daß 
das statistische Datum als ein geordnetes Paar konstruiert werden wird, deren 
zwei Glieder geordnete Tripel sind. Das eine Tripel wird die statistische 
Oberhypothese repräsentieren, das andere Tripel den im Datum enthaltenen 
Erfahrungsbericht. Wir werden daher gelegentlich das erste Glied des 
statistischen Datums die theoretische Komponente und das zweite Glied die 
experimentelle oder empirische Komponente nennen 4 . Der so konstruierte Be- 
griff des statistischen Datums hat neben rein technischen Vorteilen einen 
didaktischen Effekt: Es wird dadurch der Verdacht beseitigt, die Be- 
nützung von Oberhypothesen bei der Prüfung und Stützung von Hypothe- 
sen bilde bloß ein psychologisches oder historisches Faktum, welches die 
empirisch aufweisbare Tätigkeit der Einzelwissenschaftler kennzeichne, 
von dem jedoch der Wissenschaftstheoretiker abstrahieren müsse. 

Die obige Bemerkung über die epistemologische Parallelität von Er- 
fahrungsdaten und Oberhypothesen diente nur dazu, den späteren Aus- 
führungen die scheinbare Befremdlichkeit zu nehmen. Dagegen findet in 
diese Ausführungen keine These Eingang, welche die prinzipielle Revidier- 
barkeit der akzeptierten Erfahrungsbasis behauptet. Wer an absolut sichere 
singuläre Erfahrungssät^e glaubt , braucht diesen Glauben nicht ab%ulegen , um die 
folgenden Gedankengänge %u verstehen . Für ihn besteht das statistische Datum 
dann eben aus einer gegen mögliche Widerlegung immunen Komponente 
(dem Erfahrungsbericht) und einer prinzipiell revidierbaren Komponente 
(der statistischen Oberhypothese). Die formale Behandlung bleibt also die- 
selbe. 

Wenn oben von den beiden logisch möglichen Grenzfällen des bloß 
tautologischen Wissens gesprochen wurde, so könnte sich bei genauerem 
Zusehen doch auch hier eine Asymmetrie ergeben. Daß das Erfahrungswis- 
sen auf das leere (tautologische) Wissen zusammenschrumpfen kann, ist 
zweifellos möglich: Man kann statistische Hypothesen aufstellen, bevor 
man Beobachtungsresultate zur Verfügung hat. Dagegen liegt es nicht auf 
der Hand, daß es möglich ist, bei der Prüfung statistischer Hypothesen ein 
bloß tautologisches Hintergrundwissen bezüglich der theoretischen Kompo- 
nente zu benützen. Wie wir noch erkennen werden, hängt die Beantwortung 
dieser Frage davon ab, ob man die Wendung „irgendeine Verteilung“ als 
sinnvoll akzeptieren soll. Ich möchte dies bezweifeln. 

/. Beispiel ( diskreter Fall) : Man stellt eine Vermutung darüber auf, wie 
groß die Wahrscheinlichkeit ist, mit einer gegebenen Münze Kopf zu werfen 

4 Hacking konstruiert das statistische Datum demgegenüber als ein geord- 
netes Sextupel. Ich ziehe die obige Darstellung wegen der dadurch erzielten klaren 
Trennbarkeit der beiden genannten Komponenten vor. 
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(mit einem gegebenen Würfel eine Zwei zu würfeln). Die Vermutung wird 
nach ihrer Aufstellung durch einige Experimente getestet. Scheinbar handelt 
es sich hierbei um eine isolierte statistische Hypothese, bei deren Aufstel- 
lung keine allgemeineren statistischen Annahmen gemacht wurden, und 
die hiernach mit Erfahrungsdaten (den gewonnenen Wurfergebnissen) 
konfrontiert wird. Diese Annahme ist jedoch grundfalsch. Die Statistiker wissen 
dies auch. Sie würden im vorliegenden Fall sagen, daß es sich darum handle, 
eine hypothetische Annahme über den Parameter & einer Binomialvertei- 
lung zu testen. Daß die Binomialverteilung das geeignete Modell für die 
Beurteilung des Sachverhaltes bilde, nennen sie „Spezifikation des sta- 
tistischen Problems“. Hinter dieser etwas undeutlichen Wendung ver- 
birgt sich die Tatsache, daß bei der Diskussion der Frage, wie groß die er- 
wähnte Wahrscheinlichkeit ist, stillschweigend eine statistische Oberhypothese als 
gültig vorausgesetzt wird. Im Münz- bzw. Würfelbeispiel ist dies die Hypothese, 
daß der Münzwurf (Würfelwurf) den Gesetzen der Binomialverteilung (und 
nicht etwa z. B. denen der geometrischen oder der hypergeometrischen 
Verteilung) genügt. Unter dieser Voraussetzung wird die Hypothese über 
den Wert von $ geprüft. Diese Voraussetzung wird innerhalb des vorliegenden 
Testverfahrens überhaupt nicht zur Diskussion gestellt. 

2. Beispiel ( kontinuierlicher Fall) : Es soll eine Hypothese über die durch- 
schnittliche Brenndauer von Glühbirnen, die in einer Fabrik hergestellt 
worden sind, geprüft werden. Wieder wird zunächst ein theoretisches Mo- 
dell zugrunde gelegt. Diesmal ist es die Exponentialverteilung. Das, worum 
sich die ganze Diskussion dreht, ist die Frage, ob der Parameter dieser Ver- 
teilung richtig erraten worden ist oder ob die experimentellen Ergebnisse 
eine Revision der Annahme über den Parameter nahelegen werden. Daß es 
sich überhaupt um eine Exponentialverteilung handelt , wird dagegen nicht in Frage 
gestellt , sondern vorausgesetzt. 

In anderen (und zwar sehr vielen) Fällen wird die Annahme zugrunde 
gelegt, daß eine Normalverteilung vorliegt. Die untersuchte statistische 
Hypothese betrifft dagegen nur Annahmen über die Parameterwerte von 
fi und er der Normalverteilung. 

(IV) Unter statistischen Hypothesen werden wir stets Verteilungshypo- 
thesen verstehen. Elementare statistische Aussagen von der Gestalt: „die 
Wahrscheinlichkeit, mit diesem Würfel eine 2 zu werfen, beträgt r“ werden 
als degenerierte Fälle von Verteilungshypothesen aufgefaßt, in denen nur 
ein Teil der Verteilung angegeben wird. Die theoretische Komponente des 
statistischen Datums beschreibt dann die allgemeine Struktur der zur Dis- 
kussion stehenden Verteilungshypothesen. 

Wir werden jedoch in dieser Hinsicht keine starre Haltung einnehmen. 
Die statistische Oberhypothese braucht nicht diese besondere Gestalt zu 
haben. Sie kann allgemeiner sein. Es wird nur verlangt, daß darin die Zu- 
gehörigkeit zu einer Klasse von Verteilungen angegeben ivird. Der problematische 
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Grenzfall, daß diese Klasse alle überhaupt möglichen Arten von der Vertei- 
lungen einschließt (tautologische Oberhypothese), wird in der Regel außer 
Betracht bleiben. Nur bei der Auseinandersetzung mit der personalistischen 
Theorie wird dieser Punkt ausdrücklich zur Sprache kommen. 

Das stillschweigend oder explizit vorausgesetzte Hintergrundwissen, 
das in unserem Fall aus statistischen Oberhypothesen besteht, ähnelt im 
Kleinen dem, was Th. Kuhn in [Revolutions] ein Paradigma nennt. Die Ter- 
minologie Kuhns soll jedoch streng vermieden werden. Dies hat seinen 
Grund nicht darin, daß ich sie an sich für unangemessen halte, sondern daß 
sie mir wegen der mit ihr verbundenen Assoziationen im gegenwärtigen 
Kontext als zu großsprecherisch erschiene. Die Preisgabe eines naturwissen- 
schaftlichen Paradigmas und seine Ersetzung durch ein anderes ist eine 
wissenschaftliche Revolution. Die Ersetzung der theorischen Komponente 
eines statistischen Datums durch eine andere Oberhypothese ist hingegen et- 
was ganz Alltägliches. Wenn z. B. jemand nach der Beobachtung von hinrei- 
chend vielen Würfen aufhört, den wahren Parameter der Binomialvertei- 
lung zu suchen, da er den begründeten Verdacht hat, daß überhaupt keine 
Binomialverteilung vorliegt (weil die erzielten Wurfergebnisse vermutlich 
die späteren beeinflussen), so kann dies für ihn u. U. zwar sehr wichtig sein; 
dennoch hat eine derartige Änderung der Auffassung im Prinzip nichts Auf- 
regendes oder Revolutionäres an sich. 

Macht man die statistischen Oberhypothesen selbst zum Gegenstand der 
Analyse, so erweist es sich als wichtig, scharf zwischen drei Problemstel- 
lungen zu unterscheiden. Die erste betrifft die Frage, wie man der theore- 
tischen Komponente des statistischen Datums gelangt. Dazu werden wir nur einige 
sehr allgemein gehaltene Bemerkungen machen können; denn darüber 
hinausgehende Feststellungen gehören nicht zur Wissenschaftstheorie, 
sondern zur Psychologie der Forschung. Die zweite umfaßt alle Fragen der 
Prüfung und Stützung derartiger Oberhypothesen . Hier wird man von vornherein 
verlangen, daß eine Theorie der Bestätigung (Stützung) sowie eine Test- 
theorie so allgemein gehalten sein muß, daß sie auf statistische Hypothesen 
beliebiger Allgemeinheitsstufe anwendbar ist. Damit ist gewährleistet, daß 
dasjenige, was ein in einem bestimmten Kontext vorausgesetztes statistisches 
Hintergrundwissen darstellt, in einem anderen Kontext Gegenstand kritischer 
Beurteilung sein kann. Schließlich ist noch das Problem zu erwähnen, ob es 
Regeln dafür gibt, wann die Prüfung vorliegender Hypothesen bestimmter Allge- 
meinheitsstufe fallenzulassen ist und z ur Infragestellung der zunächst als gültig 
vorausgesetzten Oberhypothesen übergegangen werden soll . Wir werden diese Frage 
offen lassen. Ich vermute, daß es keine präzisen Regeln von dieser Art gibt. 
Sollte dies dennoch der Fall sein, so bleibt ihre Formulierung vorläufig 
(neben vielem anderen) ein Desiderat. Es würde sich dabei darum handeln, 
genau den Punkt zu bestimmen, an dem man zu einem Schluß gelangt, der 
in alltagssprachlicher Formulierung etwa so lauten würde: „Alle zur Dis- 
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kussion stehenden Hypothesen sind falsch; ergo muß in den bisher voraus- 
gesetzten Oberhypothesen ein Fehler stecken“. 

(V) Außer der ausdrücklichen Einbeziehung von Hintergrundwissen 
in das statistische Datum soll zum Zweck der Abgrenzung noch ein weiterer 
wesentlicher Unterschied zum Vorgehen Carnaps in seiner induktiven 
Logik angeführt werden: Nach der hier vertretenen Auffassung können 
isolierte statistische Hypothesen niemals einer ädaquaten theoretischen 
Beurteilung unterzogen werden. Wir werden versuchen, die These zu be- 
gründen, daß die Beurteilung einer statistischen Hypothese nur erfolgen 
kann in betrug auf eine Klasse von Alternativhypothesen , die mit der %ur Diskussion 
stehenden Hypothese konkurrieren. 

Würden wir den Ausdruck „Induktion*" verwenden — was wir aus- 
schließlich in diesen Vorbemerkungen tun — , so müßten wir sagen: Bei der 
folgenden Theorie handelt es sich um eine moderne Variante der elimina - 
tiven Induktionstheorie. Carnaps Theorie kann demgegenüber als eine 
moderne Variante der £tf#^mz//^//Induktionstheorie angesehen werden. Der 
enumerative Charakter, d. h. die Beurteilung einzelner Hypothesen auf ihre 
Prüfbarkeit, den Grad ihrer Bestätigung, der Akzeptierbarkeit etc. verbindet 
im übrigen so heterogene Theorien, wie z. B. die von Carnap, Reichenbach 
und der Personalsten. 

Innerhalb der sog. PoppER-CARNAP-Diskussion hat sich herausgestellt, daß 
Carnap im intuitiven Teil seiner Ausführungen, d. h. bei der Klärung des Expli- 
kandums, zwei Begriffsfamilien nicht klar unterschieden hatte. Vor allem durch 
die Ausführungen Bar-Hillels ist es klar gemacht worden, daß die Wiedergabe 
der Carnapschen Formel „ c(h , e) = r“ durch „der Grad, in dem h durch e bestätigt 
wird, beträgt r“ recht irreführend ist. Denn r kann zwar groß, aber dennoch 
kleiner sein als der Wert von c (h, /), so daß das Erfahrungsdatum e die Apriori- 
Wahrscheinlichkeit von h herabgedrückt hat. Carnap trug dieser berechtigten 
Kritik im Vorwort zur zweiten Auflage von [Probability], S. XV— XVII dadurch 
Rechnung, daß er zwei Familien von Begriffen unterschied: die Familie der 
Festigkeitsbegriffe (concepts of firmness) und die Familie der Begriffe des Zuwachses 
an Festigkeit (concepts of increase 5 of firmness). Die zweite Familie entspricht dem, 
was Carnap ursprünglich die Relevanzbegriffe genannt hatte 6 . Den komparativen 
Begriffen wurde dabei, so scheint es mir, keine genügende Aufmerksamkeit ge- 
schenkt. Diese Begriffe bilden eine eigene dritte Familie. 

Hier muß man allerdings eine Differenzierung vornehmen. Carnap wählt als 
Grundbegriff eine vierstellige Relation 9!l(£(h, e, h\ e '), die besagt, daß h durch e 

5 Der von Bar-Hillel vorgeschlagene Ausdruck “increment” an Stelle von 
“increase” wäre vorzuziehen. 

6 Nebenbei bemerkt: Carnap hätte meines Erachtens noch einen Schritt 
weitergehen und die ursprüngliche Terminologie ändern sollen. Der Ausdruck 
„Grad der Bestätigung“ hätte für den quantitativen Begriff D(h,e) der zweiten 
und nicht der ersten Familie benützt werden sollen. Da dieser Begriff als Differenz 
c(h,e)—c(hy) definiert ist, wäre damit dem Streit wenigstens eine Spitze genommen 
worden: Carnap hätte nach Änderung dieser Terminologie natürlich zugegeben, 
daß der Begriff des Bestätigungsgrades nicht die formale Struktur einer Wahrscheinlich- 
keit hat. 
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besser bestätigt wird als b' durch e' 7 . Als Spezialfall davon ergeben sich zwei drei- 
stellige Relationen, nämlich einmal für e—e' und einmal für h — h' . Nennen wir 
den ersten Begriff ti, e). Mittels dieses Begriffes werden %wei miteinander 

rivalisierende Hypothesen verglichen. Dies ist das grundsätzlich Neue gegenüber den 
qualitativen und quantitativen Begriffen der Festigkeit und des Festigkeits- 
zuwachses. In der traditionellen Sprechweise müßte man sagen, daß nur in 
9IM£(b, h\ e ) die eliminative Theorie der Induktion zur Geltung komme, während 
Carnaps übrige Theorie, wie schon erwähnt, eine Variante der enumerativen 
Theorie der Induktion darstelle. Daß Carnap dies nicht bemerkt hat, dürfte da- 
rauf beruhen, daß er von der Voraussetzung ausging, es stehe uns ein adäquater 
quantitativer Begriff c(h, e) zur Verfügung und h\ e) sei darstellbar als 

c(h, e) > c{h\ e). Der Vergleich wird erst zu einem nachträglichen Vergleich numeri- 
scher f-Werte. Man muß diese Carnapsche Voraussetzung fallen lassen, um zu er- 
kennen, daß der komparative Bestätigungsbegriff etwas prinzipiell anderes dar- 
stellt als die übrigen von ihm angeführten Begriffe. 

Die dreistelligen Relationen wurden hier bewußt in den Vordergrund ge- 
rückt. Ich bezweifle nämlich , ob Carnaps e> h\ e') überhaupt ein sinnvolles 

Explikandum darstellt . Dieser Zweifel soll an späterer Stelle im Rahmen einer 
kritischen Diskussion der Auffassung Hac kings durch ein — wie mir scheint 
überzeugendes — Gegenbeispiel gestützt werden. Auch Hacking geht nämlich 
bei seinem Versuch, die Einzelfallregel sowie die Regel für den Likelihood- Ver- 
gleich statistischer Hypothesen aus einem allgemeineren Prinzip (nämlich seinem 
‘law of likelihood’) herzuleiten, von der intuitiven Vorstellung aus, man müsse 
eine derartige vierstellige Relation zu Grunde legen. Demgegenüber soll später ge- 
zeigt werden, daß es zwar sinnvoll ist, verschiedene statistische Hypothesen im Licht 
eines und desselben Beobachtungsbefundes zu beurteilen, und ebenfalls sinnvoll, ein 
und dieselbe statistische Hypothese aufgrund verschiedener Beobachtungsresultate 
zu beurteilen, daß es hingegen kein sinnvolles Unterfangen dar stellt, verschiedene statistische 
Hypothesen auf der Basis verschiedener empirischer Befunde beurteilen %u wollen. 

Es sei bereits hier angekündigt, daß sich etwas Merkwürdiges ergeben 
wird. Das intuitive Prinzip, stets nur Klassen miteinander rivalisierender 
Hypothesen in Betracht zu ziehen, wird sich als doppeldeutig erweisen. Den 
Nachweis dafür kann man einer von Kerridge konstruierten Paradoxie 
entnehmen. Dadurch wird in aller Deutlichkeit ein Gedanke in den Vorder- 
grund treten, der auf Popper zurückgeht und lange Zeit hindurch unbe- 
achtet blieb, vermutlich weil man ihn unberechtigterweise entweder für 
nebensächlich oder für zu pragmatisch oder für zu vage hielt. 

(VI) Ein dritter Unterschied zu Carnaps Projekt einer induktiven Lo- 
gik, die ja zugleich als Theorie der Bestätigung von Hypothesen dienen 
sollte, läßt sich folgendermaßen knapp formulieren : Der später eingeführte 
Begriff der Bestätigung oder Stützung wird nicht probabilistische Struk- 
tur haben. Wenn wir für den Augenblick statistische Hypothesen als 
Wahrscheinlichkeitshypothesen bezeichnen, so können wir diesen Grund- 
gedanken auf die einprägsame, in ähnlicher Weise bereits von Popper ausge- 

7 Ich habe hier eine kleine Modifikation vorgenommen, indem ich Carnaps 
durch „>“ ersetzte. Dies hat nur den praktischen Zweck, daß der folgende 
Gedanke klarer ausgedrückt werden kann. 
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drückte Formel bringen : Wahrscheinlichkeitshypothesen haben keine Hypothesen- 
wahrscheinlichkeit \ 

Der Wahrscheinlichkeitsbegriff wird allerdings in den komparativen 
Bestätigungsbegriff Eingang finden, jedoch nur in sehr indirekter Weise: 
Dieser komparative Begriff wird definitorisch auf einen quantitativen Be- 
griff, nämlich den Begriff der Likelihood, zurückgeführt, der seinerseits 
mittels des Wahrscheinlichkeitsbegriffs zu definieren ist. 

Insgesamt ergeben sich inhaltlich drei wesentliche Unterschiede gegen- 
über Carnaps ursprünglichem Projekt einer induktiven Logik: 

(1) Verwendung des Begriffs des statistischen Datums in dem geschil- 
derten weiten Sinn, wonach theoretisches Hintergrundwissen in der Gestalt ak- 
zeptierter statistischer Oberhypothesen in das Datum einzuschließen ist . 

(2) Ausschließliche Betrachtung von Klassen miteinander rivalisierender 
Hypothesen , niemals jedoch isolierter Hypothesen. 

(3) Wahl eines bloß komparativen Begriffs als Ausgangsbasis. Dieser 
Begriff darf nicht durch die Wendung „ist wahrscheinlicher als“ wiederge- 
geben werden; denn er hat nicht die formale Struktur einer Wahrscheinlichkeit. 

(VII) Neben diesen drei inhaltlichen Abweichungen von Carnaps 
Theorie sei noch ein Unterschied oder besser : ein Zugeständnis in formaler 
Hinsicht angeführt : Verglichen mit dem hohen Grad an Exaktheit in Carnaps 
Werk wird der Grad an formaler Präzisierung in den folgenden Betrachtungen recht 
niedrig sein. 

Allerdings gibt es auch einen plausiblen Grund dafür, eine derartige 
Präzisierung vorläufig gar nicht anzustreben. Er liegt in einer von Carnaps 
Auffassung etwas abweichenden Vorstellung von der Aufgabe einer Be- 
griffsexplikation. Während nach Carnap die Explikation eines Begriffs ein 
mehr oder weniger geradliniger Prozeß ist, der nach einer vorbereitenden 
Klärung des Explikandums in der präzisen Ausarbeitung des Explikates 
besteht, sollte man meines Erachtens eine Begriffsexplikation wenigstens im 
ersten Stadium eher mit komplizierten feedback- oder Rückkoppelungs- 
verfahren vergleichen. Denn nach vorbereitenden Klärungen und ersten 
Präzisierungsversuchen wird es sich fast immer als notwendig erweisen, 
zur intuitiven Ausgangsbasis zurückzukehren, etwa um weitere Differen- 
zierungen vorzunehmen, die sich im Rahmen der formalen Präzisierung als 
notwendig erwiesen; oder um die Schwierigkeit zu beheben, die daraus 
entspringt, daß für den zu explizierenden Begriff Forderungen aufgestellt 
wurden, die sich inzwischen als miteinander unverträglich erwiesen haben. 
Auf diese Weise ist man im ersten Stadium genötigt, häufig zwischen der 
intuitiven und der formalen Ebene hin- und herzupendeln: man versucht, 
intuitive Vorstellungen zu präzisieren, verwirft sie aber wieder, weil sie sich 
als undurchführbar oder sogar als inkonsistent erweisen; die intuitive Aus- 
gangsbasis wird revidiert; neue Präzisierungsversuche führen zu der Ein- 
sicht, daß man Differenzierungen machen muß, wo man zunächst keine sah. 
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oder daß scheinbar Verschiedenes auf dasselbe hinausläuft; im ersten Fall 
muß sich die Neupräzisierung an Stelle des ursprünglich eindimensionalen 
Anlaufes von Anbeginn gabeln usw. usw. Erst nachdem alle diese Vor- 
arbeiten geleistet sind und eine nochmalige ? Rückkehr c zum Explikandum 
als unnötig erscheint, sind die Untersuchungen in das zweite Stadium ein- 
getreten, in dem man sich ganz auf die Präzisierungen konzentrieren kann. 
Die Forschung befindet sich hingegen noch in statu nascendi, solange das 
erste Stadium nicht abgeschlossen ist. In diesem ersten Stadium aber be- 
finden wir uns bezüglich des statistischen Schließens. Daher sollte man hier 
den Imperativ befolgen : „ Strebe keine z u große Präzision an , solange du nicht 
sicher sein kannst , dir prinzipielle Klarheit verschafft zu haben /“ Gemeint ist, daß 
man darauf verzichten solle, ein in allen Details ausgearbeitetes formales 
System aufzubauen, solange man nicht sicher ist, daß die Grundlagen der 
Kritik standhalten werden, und auch nicht genau weiß, welche Revisionen 
und Gabelungen sich an einzelnen Stellen als notwendig erweisen werden. 

An einigen Punkten wird es sich allerdings als unerläßlich erweisen, be- 
reits in diesem Stadium der Untersuchung mit einer formalen Präzisierung 
zu beginnen. Dies gilt vor allem für den Begriff der statistischen Aussage , 
unter die sowohl der Begriff des statistischen Datums als auch der Begriff 
der statistischen Hypothese subsumierbar sein wird. Wir werden, wie schon 
erwähnt, unter einer statistischen Aussage ein geordnetes Paar von geord- 
neten Tripeln bestimmter Art verstehen. 

Im übrigen aber wird der Nachteil des geringen Formalisierungs- 
grades vermutlich durch einen Vorteil aufgewogen: In den relativ einfachen 
Begriffs- und Sprachsystemen, die Carnap seiner induktiven Logik zugrunde 
legte, können Hypothesen, die in der Sprache der mathematischen Statistik 
formuliert sind, nicht wiedergegeben werden. Auch bei Zugrundelegung 
des ursprünglichen Carnapschen Selbstverständnisses würde seine Theorie 
vorläufig für die logische Analyse des statistischen Schließens untauglich 
sein. Wir werden dagegen beliebige statistische Hypothesen in unsere Über- 
legungen einbeziehen können. Nicht einmal eine Beschränkung auf den 
diskreten Fall ist erforderlich. Nur bei der Rekonstruktion des Fiduzial- 
argumentes ist es vorläufig nicht klar, ob und wie es sich auf den kontinuier- 
lichen Fall übertragen läßt. 

Carnap selbst hätte vermutlich das Wort „vorläufig“ im vorangehenden 
Absatz unterstrichen. Er hätte betont, daß auch sein Bestreben dahingehe, 
die induktive Logik auf reichere und reichere Sprachen anzuwenden, so 
daß schließlich auch statistische Hypothesen von beliebigem Komplexitäts- 
grad einbezogen werden könnten. Carnap war sich dabei durchaus dessen 
bewußt, daß sein Projekt in diesem Prozeß mannigfache Modifikationen 
erfahren würde: auf lange Sicht — etwa in 300 Jahren — werden vielleicht 
die in (IV) bis (VI) hervorgehobenen Unterschiede verschwinden oder sich 
als geringfügig erweisen. 
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Unter diesem Aspekt des long run würde ich trotz meiner Skepsis gegen- 
über dem Projekt einer induktiven Logik vieles, wenn nicht alles von dem 
Gesagten wieder zurücknehmen und nur mehr den Gesichtspunkt der Un- 
geduld hervorkehren. Denn “in the long run ”, sagt Lord J. M. Keynes, “we 
are all dead” 8 . 

l.b Die relative Häufigkeit auf lange Sicht und die Häufigkeits- 
definition der statistischen Wahrscheinlichkeit. Nach Carnap müssen 
wir zwischen zwei Begriffen der Wahrscheinlichkeit unterscheiden: der 
induktiven Wahrscheinlichkeit und der statistischen Wahrscheinlichkeit . Die in- 
duktive Wahrscheinlichkeit ist, wie wir in II gesehen haben, nichts anderes 
als eine in einem präzisen Sinn verschärfte personelle Wahrscheinlichkeit. 
Die Carnap vorschwebende Verschärfung bestand in der Hinzunahme wei- 
terer Axiome zu den Kolmogoroff- Axiomen. Da es uns im gegenwärtigen 
Zusammenhang nur um die Abgrenzung zur statistischen Wahrscheinlich- 
keit geht, können wir von der Frage abstrahieren, ob die von Carnap vor- 
geschlagene Verschärfung wünschenswert ist. Wir wollen somit die Gegen- 
überstellung durch das Begriffspaar Personelle Wahrscheinlichkeit und Sta- 
tistische Wahrscheinlichkeit charakterisieren. Daß es sich hierbei um zwei von- 
einander verschiedene, wissenschaftlich wichtige und exakt durchführ- 
bare Deutungen des mathematischen Wahrscheinlichkeitskalküls handelt, 
wird keineswegs allgemein anerkannt. In der Grundlagendiskussion der 
Wahrscheinlichkeitstheorie haben sich vielmehr zwei Schulen herausge- 
bildet, die beide dadurch gekennzeichnet sind, daß sie nur den einen dieser 
beiden Begriffe als den , wahren* Begriff der Wahrscheinlichkeit anerkennen, 
den es zu explizieren gelte. Mit der These der Personalsten, wonach man 
auch für statistische Zwecke mit dem Begriff der personellen (subjektiven) 
Wahrscheinlichkeit als dem grundlegenden Begriff auskommen könne, 
werden wir uns an späterer Stelle auseinandersetzen. 

Vorläufig wollen wir von der — möglicherweise illusionären — An- 
nahme ausgehen, daß es einen davon verschiedenen Begriff der statistischen 
Wahrscheinlichkeit gibt und daß es nur noch nicht ganz klar ist, ob und wie 
sich dieser Begriff definieren läßt. Vorausgesetzt werden soll nur, daß dieser 
Begriff ein objektives Merkmal von Dingen oder von Ereignissen (bzw. von 
Systemen von solchen) betrifft und daß er etwas mit beobachtbaren relativen 
Häufigkeiten zu tun hat. 

Wenn wir z. B. eine Urne betrachten, die 22 weiße und 78 schwarze 
Kugeln enthält, und wenn wir überdies annehmen, daß für jede der 100 
Kugeln dieselbe Wahrscheinlichkeit 9 besteht, gezogen zu werden, so setzen 

8 J. M. Keynes, A Tract on Monetary Reform , London 1924, S. 80. 

9 Die hier enthaltene Bezugnahme auf eine Wahrscheinlichkeit soll uns nicht 
stören. Es geht uns ja nur um eine vorläufige Erläuterung, nicht um eine scharfe 
Definition. Nur wenn eine solche bereits hier intendiert wäre, müßte die Erläute- 
rung als zirkulär verworfen werden. 
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wir die statistische Wahrscheinlichkeit für die Ziehung einer weißen bzw. 
einer schwarzen Kugel einfach mit den uns bekannten relativen Häufig- 
keiten gleich: die statistische Wahrscheinlichkeit dafür, eine weiße Kugel 
zu ziehen, beträgt 22/100, und die statistische Wahrscheinlichkeit dafür, 
eine schwarze Kugel zu ziehen, ist 78/100. Wenn wir hingegen die statistische 
Wahrscheinlichkeit dafür angeben sollen, mit einem bestimmten Würfel 
eine 6 zu werfen, können wir uns nicht damit behelfen, auf bekannte 
Häufigkeitsverhältnisse zurückzugreifen. Denn die Gesamtheit der Würfe, 
die man mit diesem Würfel vornehmen kann, bildet keine fest umgrenzte 
endliche Gesamtheit. Und deshalb hat auch die Wendung „die relative Häufig- 
keit der Sechserwürfe“ vorläufig noch gar keinen klaren Sinn. Man muß zu 
einer Idealisierung greifen, um auch in diesem Fall eine Verknüpfung zwi- 
schen statistischer Wahrscheinlichkeit und relativer Häufigkeit herzustellen. 

Der Unterschied des zu explizierenden Begriffs der statistischen Wahr- 
scheinlichkeit von dem der subjektiven Wahrscheinlichkeit 10 tritt besonders 
deutlich zutage, wenn man die Frage betrachtet, woher man denn weiß , wie 
groß eine bestimmte Wahrscheinlichkeit sei. Für den Fall der subjektiven Wahr- 
scheinlichkeit bildet die Antwort keine Schwierigkeit, zumindest nicht 
Schwierigkeiten prinzipieller Natur. Denn subjektive Wahrscheinlichkeit 
ist partieller Glaube und partieller Glaube ist, wie wir gesehen haben, mit- 
tels des Begriffs des Wettquotienten quantitativ präzisierbar. Eine subjek- 
tive Wahrscheinlichkeitsaussage ist somit prinzipiell entscheidbar, d. h. es ist prin- 
zipiell feststellbar, ob sie richtig oder falsch ist. Demgegenüber ist eine statisti- 
sche Wahrscheinlichkeitsaussage eine prinzipiell unentscheidbare Hypothese. Wäh- 
rend subjektive Wahrscheinlichkeiten immer bekannte Wahrscheinlichkeiten 
darstellen, sind statistische Wahrscheinlichkeiten unbekannte Wahrschein- 
lichkeiten, deren Werte man nur erraten, aber nicht definitiv wissen kann. 

Der Grund dafür wird später noch deutlicher zutage treten. Für den Augenblick 
möge ein einfaches Illustrationsbeispiel genügen : Ich habe einen Würfel, von dem 
ich zunächst annehme, er sei unverfälscht, so daß die Wahrscheinlichkeit, mit 
ihm irgendeine Augenzahl zu werfen, 1/6 beträgt. Ich würfele 20 mal und erhalte 
dabei 12 Sechserwürfe, während die übrigen 8 Würfe sich irgendwie auf die rest- 
lichen fünf Augenzahlen verteilen. Dieses Ergebnis wird meinen ursprünglichen 
Glauben stark erschüttern; denn ich werde, gestützt auf diesen Beobachtungsbe- 
fund von 20 Würfen, jetzt eher zu der Auffassung neigen, daß der Würfel zugunsten 
der Augenzahl 6 verfälscht sei. Ich kann dies jedoch höchstens mit dem Hinweis 
darauf begründen, daß es vernünftig sei, die Hypothese der Unverfälschtheit 
(d. h. die Gleichverteilungshypothese bezüglich der sechs Augenzahlen) für un- 
richtig zu halten. Dagegen kann ich nicht behaupten, die letztere Hypothese sei 

10 Da es gegenwärtig nicht auf den Unterschied zwischen der deskriptiven 
und der normativen Betrachtungsweise ankommt und außerdem die Personalisten 
gewöhnlich als Subjektivisten bezeichnet werden, sprechen wir von nun an meist 
von subjektiver Wahrscheinlichkeit. Der Leser kann jedoch an allen Stellen, wo 
dieser Ausdruck im Text vorkommt, dafür die Wendung „subjektive oder per- 
sonelle Wahrscheinlichkeit“ substituieren. 
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empirisch widerlegt: Unter der Annahme der Richtigkeit dieser Hypothese ist näm- 
lich das, was sich tatsächlich ereignet hat, nicht unmöglich, vielmehr kommt es 
nur sehr selten vor. Eine statistische Hypothese ist also nicht empirisch falsifi^ierbar. 
Mittels eines geeigneten Beispiels kann man sich leicht klar machen, daß sie auch 
nicht empirisch verifi^ierbar ist. 

Diese gleichzeitige 5 negative Testsymmetrie c statistischer Hypothesen, 
d. h. ihre gleichzeitige Nichtverifizierbarkeit und Nichtfalsifizierbarkeit, 
impliziert natürlich nicht, daß sie überhaupt nicht empirisch prüfbar sind. 
Dies sind sie zweifellos, wenn wir auch von der Natur dieser Prüfung vor- 
läufig noch eine recht ungenaue Vorstellung haben. Im Beispiel des vorigen 
Absatzes nahmen wir bereits einen intuitiven Appell an diese Prüfbarkeit 
vor, als wir uns überlegten, daß die Hypothese der Unverfälschtheit des 
Würfels bei Vorliegen des geschilderten Befundes von 20 Würfen vermut- 
lich unrichtig sei. Auch über die Art der Befunde, welche zur Prüfung 
herangezogen werden, können wir eine allgemeine Feststellung treffen: 
Es handelt sich um Auszählungen von relativen Häufigkeiten , d. h. von Propor- 
tionen. 

An diesen Sachverhalt knüpft die Häufigkeitstheorie der statistischen 
Wahrscheinlichkeit an. Der Ausdruck „Häufigkeitstheorie“ ist allerdings 
doppeldeutig. Es gibt davon zwei Varianten. Nach der einen Variante, die 
an späterer Stelle hier versuchsweise vertreten werden soll, ist der Zusam- 
menhang zwischen statistischer Wahrscheinlichkeit und relativer Häufig- 
keit nur ein sehr indirekter. „Statistische Wahrscheinlichkeit“ ist danach 
kein durch Definition charakterisierbarer Ausdruck, sondern ein theore- 
tischer Term , der nur indirekt mit beobachtbaren Folgen von Ereignissen, 
an denen relative Häufigkeiten feststellbar sind, in Zusammenhang steht. 
Gegenwärtig interessiert uns die andere, auch historisch ursprünglichere 
Variante dieser Auffassung, wonach der Begriff der statistischen Wahrschein- 
lichkeit auf den der relativen Häufigkeit definitorisch zßrückführbar ist. Der 
Begriff der statistischen Wahrscheinlichkeit wird im Rahmen dieser Theorie 
als Häufigkeitsgrenzwert eingeführt. Zwecks Unterscheidung von der erst- 
genannten Variante sprechen wir von der Limestheorie der statistischen Wahr- 
scheinlichkeit. 

Zwei Faktoren bestimmten die Wahrscheinlichkeitsdefinition dieser 
Theorie: ein wissenschaftstheoretisches Konzept und ein merkwürdiger 
Typus von Beobachtungen, den man in zahllosen Situationen vornehmen 
kann. Das wissenschaftstheoretische Konzept besteht in einer gewissen Liberali- 
sierung der Grundthese des Verifikationspositivismus, nämlich der These: 
„der Sinn einer empirischen Aussage besteht in der Methode ihrer Veri- 
fikation“ zu der schwächeren These: „der Sinn einer empirischen Aussage 
besteht in der Methode ihrer Prüfung“. Diese Liberalisierung war not- 
wendig geworden, weil sich statistische Hypothesen als unverifizierbar er- 
wiesen. Doch war damit die Erzeugung einer Vagheit verbunden; denn was 
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heißt hier „Prüfung“? Die obige Feststellung hilft uns da weiter: Wir 
prüfen statistische Hypothesen auf dem Wege über Feststellungen rela- 
tiver Häufigkeiten. Also zwingt uns die revidierte These, den Begriff der 
statistischen Wahrscheinlichkeit mit Hilfe des Begriffs der relativen Häufigkeit %u 
definieren . Unklar ist dabei zunächst nur die genaue Form dieser Definition. 

Sicher ist jedenfalls eines: Wir können uns im Definiens nicht auf die 
tatsächlich beobachteten relativen Häufigkeiten beziehen. Betrachten wir dazu 
wieder ein einfaches Wurfexperiment : Angenommen, ich habe eine Münze 
16mal geworfen und dabei 8mal K (Kopf) und 8mal S (Schrift) erhalten; die 
relativen Häufigkeiten von K und S sind also jeweils 1/2. Soll ich also die 
Wahrscheinlichkeit von K mit 1/2 ansetzen? Ich werfe die Münze ein 17. 
Mal. K oder S muß eintreten. Wie immer das Resultat auch lauten möge, als 
relative Häufigkeit des einen Merkmals in 17 Würfen wird sich der Wert 
9/17, also mehr als 1/2, und als die des anderen Merkmals der Wert 8/17, also 
weniger als 1/2, ergeben. Ich wäre also in jedem Fall gezwungen, den eben 
vorgenommenen Wahrscheinlichkeitsansatz zu revidieren. 

Auf die analoge Situation stoßen wir bei allen Arten von Zufalls- 
experimenten: Die tatsächlich beobachteten relativen Häufigkeiten ändern 
sich mit jeder Verlängerung der Beobachtungsreihe durch nochmalige 
Realisierung des Experimentes 11 . 

Aus diesem Dilemma: die statistische Wahrscheinlichkeit mittels des 
Begriffs der relativen Häufigkeit definieren zu müssen , sie aber wegen der 
ständig variierenden relativen Häufigkeiten nicht durch diese letzteren de- 
finieren zu können , scheint derjenige Beobachtungstyp herauszuführen, dessen 
Beschreibung wir oben ankündigten: Es handelt sich darum, daß derartige 
Zufallsexperimente (Würfel- und Münzwürfe, Ziehen von Kugeln aus einer 
Urne oder von Karten aus einem Spiel mit Zurücklegen und Mischen) trotz 
ihrer Unberechenbarkeit für den Einzelfall auf lange Sicht eine merkwürdige 
Verhaltens konstant aufweisen. Am Beispiel des Münzwurfes illustriert: Mit 
zunehmender Anzahl von Würfen nähert sich das Verhältnis der Anzahl 
der TG Würfe (i'-Würfe) zur Gesamtzahl aller Würfe immer mehr einem 
festen Wert. Und je größer die Anzahl der Würfe ist , desto geringfügiger wird die 
Abweichung der beobachteten relativen Häufigkeiten von diesem Wert. 

An diesem Punkt hakt die Limestheorie ein. Sie geht von der folgenden 
Idealisierung aus : Wir fingieren, daß wir das fragliche Zufallsexperiment un- 
begrenzt oft wiederholen könnten. Die Annäherung der relativen Häufig- 
keiten an einen bestimmten konstanten Wert läßt sich dann mit Hilfe des 
Begriffs des Grenzwertes präzisieren. Genauer sieht das Verfahren folgen- 
dermaßen aus 12 : 

11 Ausgenommen natürlich den extremen Grenzfall, daß alle Resultate von 
derselben Art waren. 

12 Wir knüpfen hier an die übersichtliche und bündige Darstellung bei S. 
Körner in [Experience], S. 132 ff. an. 
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Gegeben sei ein Zufallsexperiment, dessen wiederholte Realisierungen 
Glieder einer Folge erzeugen, die das gemeinsame Merkmal F besitzen. 
(/Hst z. B. das Merkmal, Ergebnis eines Wurfes mit dieser Münze oder mit 
diesem Würfel zu sein.) Uns interessiert ein Merkmal G , welches gewisse 
Glieder dieser Folge besitzen, andere nicht ( G ist z. B. das Merkmal, ein Kopf- 
wurf bzw. ein Dreierwurf zu sein). „N%(P)“ sei eine Abkürzung für „die 
Anzahl der Objekte, welche das Merkmal P besitzen* cl3 . Die Proportion 
oder die relative Häufigkeit von Objekten mit der Eigenschaft F , die über- 
dies das Merkmal G besitzen, ist dann gleich dem Bruch N%(F r\ G)IN^(F) 
(wobei wir aus Gründen der Einfachheit die Prädikate als Mengenbezeich- 
nungen auffassen). Wir betrachten jetzt die Folge f dieser Proportionen, die 
sich mit sukzessiver Wiederholung des Zufallsexperimentes ergeben, welches 
die Grundfolge mit der Eigenschaft /erzeugt. (Diese Folge wird gelegentlich 
auch die Be^ugsfolge genannt.) Die Glieder dieser Folge mögen /i,/ 2 >/ 3 , . . . 
heißen. Wenn z. B. F die Wurfergebnisse des Würfels charakterisiert und G 
die Dreierwürfe, so gibt / 37 die Proportion der Dreierwürfe in den ersten 37 
Würfen an. Falls in dieser Folge 5 Dreierwürfe vorkamen, so ist / 37 = 5/37 
(da Nz(F) = 37 und Nz(F r\ G) = 5). 

Aus der Folge der^- greifen wir ein bestimmtes Glied, etwa f N heraus. 
Wir erklären nun, was es heißt, daß die mit f N beginnende Fortsetzung der 
Folge mindestens die Stabilität s besitzt. Wenn wir die Buchstaben „m“ und 
„k“ als Variable für ganze Zahlen verwenden, so lautet das Definiens für 
diesen Begriff: 

(d) A m A k {m > N | f m — / m+fc | < e) (inhaltlich gesprochen: der 
absolute Betrag der Differenz zwischen zwei Proportionen von mehr 
als N Gliedern der Folge /, die überdies das Merkmal G besitzen, 
ist kleiner als e.) 

Wir sagen, daß die Stabilität der Folge %unimmt^ wenn mit wachsender 
Folge kleinere und kleinere Zahlen e angebbar sind, so daß (d) gilt. 

Rein logisch gesehen sind verschiedene Möglichkeiten denkbar. So 
braucht z. B. die Stabilität nicht zuzunehmen; denn die Proportionen 
könnten um einen bestimmten Wert oszillieren. Der Grundgedanke der 
Limestheorie besteht darin, von einer Wahrscheinlichkeit von G relativ %u F 
nur dann %u sprechen , wenn die idealisierte unendliche Folge relativer Häufigkeiten 
/i, / 2 , / 3 , . . . an Stabilität beliebig ^ unimmt (bzw. an Instabilität beliebig ab- 
nimmt). In präzisierter Form besagt dies: Zu jeder noch so kleinen Zahl s 
existiert eine Zahl iV, so daß die Bedingung (a) erfüllt ist. Wir sagen in die- 

13 Den Individuenbereich lassen wir bei dieser Symbolisierung vorläufig 
offen. Weiter unten erfolgt für unsere Anwendung eine diesbezügliche Präzi- 
sierung: Wir wenden diesen Begriff auf Folgen von Individuenbereichen an, wobei 
jeder einzelne Bereich aus der Anzahl der Resultate von Realisierungen eines Zu- 
fallsexperimentes besteht, die bis zu einem bestimmten Stadium durchgeführt 
worden sind. 
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sem Fall, daß die Folge / stabil sei. Die genaue Definition der Stabilität von f 
lautet somit: 

(b) A e V N A m A k{m> N-+ \f m —f m+k \ < s ). 

Nach dem Konvergenzkriterium von Cauchy besitzt eine Folge / genau 
dann einen Grenzwert oder Limes, wenn sie die Bedingung (b) erfüllt. Es 
ist also zulässig, von diesem Grenzwert lim f n zu sprechen. Dieser Grenzwert 

tt-> OO 

der relativen Häufigkeiten soll mit der Wahrscheinlichkeit von G bezüglich F identi- 
fiziert werden. Wir bezeichnen ihn mit p (G, F ) : 

(c) P(G, F) = Df lim f n . 

«— > OO 

Die statistische Wahrscheinlichkeit von G bezüglich F wird also 
gleichgesetzt mit dem Grenzwert der relativen Häufigkeit von G in einer 
unendlichen Bezugsfolge, deren Glieder alle das Merkmal F besitzen. 

Von dem mittels (c) definierten Begriff läßt sich zeigen, daß er sämtlichen 
Axiomen des mathematischen Wahrscheinlichkeitskalküls genügt. Die so 
definierte statistische Wahrscheinlichkeit liefert somit ein Modell der axioma- 
tischen Wahrscheinlichkeitstheorie. Für den Nachweis ist nichts weiter er- 
forderlich als die elementare Mengenalgebra sowie die elementaren Rechen- 
regeln für die Limesoperation. (Bezüglich eines detaillierten Nachweises 
vgl. Reichenbach, [Probability], § 18.) 

Wäre diese Variante der Häufigkeitsinterpretation befriedigend, so hät- 
ten wir zugleich eine strenge Begründung dafür gewonnen, daß statistische 
Häufigkeitsaussagen weder verifizierbar noch falsifizierbar sind. Dies läge 
einfach darin, daß die Existenz der Wahrscheinlichkeit (c) mit der Gültig- 
keit von (b) äquivalent ist und daß in (b) sowohl ein unbeschränkter Existenz 
quantor als auch unbeschränkte AUquantoren Vorkommen. Der erste schließt 
eine Falsifikation aus, die letzteren machen eine Verifikation unmöglich. 

Gegen die geschilderte Definition der statistischen Wahrscheinlichkeit 
sind zahlreiche Einwendungen vorgebracht worden. Die wichtigsten sol- 
len zunächst kurz angeführt und dann diskutiert werden. 

(1) Der erste Einwand, der ursprünglich oft vorgebracht worden ist, 
aber auch heute noch gelegentlich von subjektivistischen Wahrscheinlich- 
keitstheoretikern ins Feld geführt wird, besagt, daß dieser Begriff unent- 
scheidbar und daher praktisch wertlos sei. 

(2) Ein weiterer Einwand besagt, daß der Begriff der unendlichen Folge 
relativer Häufigkeiten auf einer unzulässigen Fiktion beruhe; denn die Zu- 
fallsexperimente, welche derartige Folgen produzieren sollen, sind Experi- 
mente mit physischen Objekten (Würfeln, Münzen, Urnen usw.), die nur 
eine endliche Existenzdauer haben. 

(3) Weiter wurde bemängelt, daß innerhalb dieser Theorie der dyna- 
mische Fall keine adäquate Berücksichtigung finde, nämlich der Fall sich 
ändernder Wahrscheinlichkeiten (wie z. B. bei einer sich ausbreitenden Epide- 
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mie, wo die Ansteckungswahrscheinlichkeit während einer bestimmten 
Zeitperiode ständig zunimmt). 

(4) Eine große Schwierigkeit bildet für die Häufigkeitsdeutung die kor- 
rekte Interpretation des Sprechens über die Wahrscheinlichkeit von Ein^el- 
ereignissen . v. Mises hatte Wahrscheinlichkeitsaussagen, die sich auf Einzel- 
fälle bezogen, überhaupt abgelehnt. Reichenbach ging zwar nicht so weit; 
doch sah er sich gezwungen, Aussagen über die Wahrscheinlichkeit von 
Einzelereignissen in komplizierter Weise in Sätze über relative Häufigkeits- 
grenzwerte von Ereignisfolgen umzudeuten. 

(5) Zu jedem Zeitpunkt stehen uns nur endlich viele Beobachtungen 
zur Verfügung. Andererseits ist jede endliche Folge mit der Annahme eines 
beliebigen Grenzwertes verträglich. Um statistische Wahrscheinlichkeits- 
aussagen überhaupt y d. h. in einem auch nur sehr indirekten Sinn prüfbar zu 
machen, müssen die Limestheoretiker der Wahrscheinlichkeitstheorie 
voraussetzen, daß sich der Grenzwert, gegen den eine Folge relativer Häufig- 
keiten konvergiert, bereits nach Beobachtung eines endlichen Teilabschnittes 
irgendwie jmkündigf oder sichtbar ‘ wird. Dies ist eine irrationale Zusatzan- 
nahme, die man der Theorie selbst nicht entnehmen kann. 

(6) Die Häufigkeitstheorie in der Variante der Limestheorie arbeitet mit 
dem Begriffsapparat der klassischen Mathematik. Die konstruktivistische 
Kritik an diesem Begriffsapparat würde auch diese Form der Wahrschein- 
lichkeitstheorie treffen. Aber selbst wenn man sich auf den klassischen 
Standpunkt stellt, muß die Art und Weise , wie innerhalb dieser Theorie mit dem 
Begriff des Grenzwertes operiert wird , in Frage gestellt werden. Wenn wir vom 
Grenzwert einer Folge von Zahlen sprechen, so setzen wir dabei voraus, 
daß diese Folge durch ein mathematisches Gesetz erzeugt wird, welches für 
jedes Glied das folgende eindeutig festlegt. Diese Bedingung ist jedoch für 
den Fall, wo die Folge durch einen Zufallsmechanismus erzeugt wird, 
sicherlich nicht erfüllt: für jedes gegebene Glied ist das darauf folgende un- 
berechenbar und unvorhersehbar. Dies soll ja gerade damit ausgedrückt 
werden, daß das Ergebnis vom Zufall abhängt. Ist es überhaupt sinnvoll, 
den Grenzwertbegriff auf Zufallsfolgen anzuwenden ? 

(7) Ein weiterer Einwand besagt, daß die Definition der statistischen 
Wahrscheinlichkeit als Grenzwert relativer Häufigkeiten, ganz abgesehen 
von allen übrigen Einwendungen, schon deshalb unbrauchbar sei, da sie 
einen logischen Zirkel enthalte. Bezüglich der Glieder jener unendlichen 
Folge von Ereignissen, für welche die Wahrscheinlichkeit eines Ereignis- 
merkmals mit dem Grenzwert der relativen Häufigkeiten dieses Merkmals 
in den endlichen Teilfolgen der Gesamtfolge definitorisch gleichgesetzt 
wird, muß vorausgesetzt werden, daß sie voneinander unabhängig sind. Geht 
dieser Unabhängigkeitsbegriff somit einerseits als Voraussetzung in die De- 
finition der statistischen Wahrscheinlichkeit ein, so wird andererseits der 
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Begriff der Unabhängigkeit selbst unter Verwendung des Wahrscheinlich- 
keitsbegriffs definiert (vgl. D 2 von 3. b bzw. Teil 0, Formel (40)). 

(8) Ein letzter Einwand lautet, daß die Verwendung des gewöhnlichen 
Konvergenzbegriffs auf alle Fälle fehlerhaft sei, und zwar ganz unabhängig 
davon, welche Position man zu dem in (6) vorgebrachten Einwand be- 
ziehe. Wir wollen uns diesen Einwand zunächst in einer etwas mehr mathe- 
matisch-technischen und darauf in einer intuitiven Weise verdeutlichen. 

Für die mathematische Kritik vergleichen wir die Definition der sta- 
tistischen Wahrscheinlichkeit in der Limestheorie mit dem Gesetz der 
großen Zahl. Nach der Limestheorie wird die statistische Wahrscheinlich- 
keit definiert als ein Grenzwert relativer Häufigkeiten, wobei der Ausdruck 
„Grenzwert“ im Sinn der klassischen reellen Analysis verstanden wird. Das 
starke Gesetz der großen Zahlen besagt demgegenüber folgendes: Wenn 
wir es mit einer Bernoullischen Versuchsfolge mit der statistischen Wahr- 
scheinlichkeit # für das Eintreten eines Ereignisses E zu tun haben — d. h. 
also mit einer unendlichen Folge von wiederholten, voneinander unab- 
hängigen Versuchen mit gleicher Erfolgswahrscheinlichkeit ff bei jedem 
Versuch, so daß jedes endliche Anfangsstück dem Gesetz der Binomialver- 

teilung genügt, — dann konvergieren die relativen Häufigkeiten— des Ein- 
tretens von E bei n Versuchen mit Wahrscheinlichkeit 1 gegen die statistische 
Wahrscheinlichkeit ff (vgl. Teil 0,4. e, (71) und (69 st )). 

Mit einem Blick auf dieses Gesetz könnte man daher einwenden, daß 
im Denken der Limestheoretiker die eingangs angeführten empiristischen 
Motive für die Definition des Wahrscheinlichkeitsbegriffs mit einer fehler- 
haften Interpretation des Gesetzes der großen Zahlen verschmelzen: Wo immer diese 
Theoretiker den gewöhnlichen Konvergenzbegriff verwenden, ist er 
durch den maßtheoretischen Konvergenzbegriff zu ersetzen. Anders 
ausgedrückt: die Wendung „konvergiert“ muß durch konvergiert mit Wahr- 
scheinlichkeit 1 “ ersetzt werden . Es liegt auf der Hand, daß damit die Limes- 
theorie in unlösbare Schwierigkeiten gerät (vgl. dazu die Diskussion weiter 
unten). 

Um die Sache nicht zu sehr zu komplizieren, haben wir an das starke Gesetz 
der großen Zahlen angeknüpft. Für die Formulierung des schwachen Gesetzes der 
großen Zahlen benötigt man zwar nur die stochastische Konvergenz, die als echte 
Konvergenz definiert ist. Doch wird auch hier ein Wahrscheinlichkeitsbegriff 
vorausgesetzt, allerdings an anderer Stelle: Es handelt sich um die Konvergenz 
von Wahrscheinlichkeitswerten , weshalb der Begriff der stochastischen Konvergenz 
ja auch häufig als Konvergenz nach Wahrscheinlichkeit charakterisiert wird. Da es 
sich bei der Erörterung von Einwand (7) nur darum handelt, daß für die Defini- 
tion der statistischen Wahrscheinlichkeit bereits ein Wahrscheinlichkeitsbegriff vorausgesetzt 
werden muß , können wir für den augenblicklichen Kontext vom Unterschied 
zwischen diesen beiden Varianten des Gesetzes abstrahieren. 

Der Sachverhalt werde noch an einem intuitiven Beispiel erläutert. Ge- 
geben sei ein homogener Würfel. Es möge vorausgesetzt werden, daß auf- 
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einanderfolgende Würfe mit diesem Würfel Folgen von unabhängigen 
Laplace-Experimenten darstellen, d. h. also, daß für jeden dieser Würfe die 
Wahrscheinlichkeit, die Augenzahl n (n= 1, . . ., 6) zu werfen, gleich 1/6 
beträgt. Die von den Limestheoretikern verwendete Idealisierung, wonach 
eine unendliche Folge solcher Würfe vorliege, werde akzeptiert. Beim 
ersten Wurf kann die Augenzahl 5 erhalten werden. Was sich beim ersten 
Wurf ereignet hat, dessen Vorkommen ist auch beim zweiten Wurf logisch 
möglich (die Wahrscheinlichkeit für das Vorkommen ist ja sogar dieselbe 
wie beim ersten Wurf), . . . , also kann eine 5 auch beim n - ten Wurf gewon- 
nen werden usw. Insgesamt kann man eine unendliche Folge von Fünfer- 
würfen erhalten. Zwar können wir aufgrund des Gesetzes der großen Zahlen 
sagen, daß die Wahrscheinlichkeit für das Vorkommen einer solchen Folge 
0 ist, aber dies ist eine schwächere Aussage als die, wonach ein derartiges 
Vorkommen logisch ausgeschlossen ist. Tatsächlich gibt es kein logisches 
Gesetz, welches den unverfälschten (gleichverteilten) Würfel zwingen 
würde, jemals so zu fallen, daß eine andere als die Augenzahl 5 nach oben 
ragt. 

Die geschilderten Einwendungen sind von verschiedenen Autoren und mit 
verschiedener Emphase vorgetragen worden. Wenig bekannt dürfte es sein, daß 
die drei wichtigsten Einwendungen bereits in dem 1930 erschienenen Aufsatz 
von H. Feigl [Wahrscheinlichkeit], implizit enthalten sind, nämlich (5), (6), 
(a. a. O. S. 251, 253), sowie der entscheidende Einwand (7), (a. a. O. S. 252). 

Nach dieser Schilderung sollen die Einwendungen kurz diskutiert 
werden. Der erste Einwand wird nur sehr wenige überzeugen. Wenn man 
schon in den Naturwissenschaften genötigt ist, unverifizierbare Gesetzes- 
hypothesen aufzustellen und gelegentlich sogar weder verifizierbare noch 
falsifizierbare Aussagen hypothetisch anzunehmen, so kann man keinen ver- 
nünftigen Grund dafür angeben, 5 unentscheidbare 4 Wahrscheinlichkeits- 
hypothesen zu verbieten. 

Auch der zweite Einwand ist nicht schlagend. Statt von einer unzuläs- 
sigen Fiktion kann höchstens von einer irrealen Hypothese gesprochen wer- 
den, die auf der Annahme beruht, wir könnten das fragliche Zufalls- 
experiment unbegrenzt oft wiederholen. Nur wer irreale Konditionalsätze 
schlechthin als sinnlos verwirft, könnte vielleicht geneigt sein, dieses Argu- 
ment zu akzeptieren. Soweit aber wollen wir keineswegs gehen, sondern dem 
Limestheoretiker zugestehen, daß derartige Annahmen zulässig seien. 

Etwas Ähnliches gilt vom dritten Einwand. Um z. B. die wachsende An- 
steckungswahrscheinlichkeit bei einer sich ausbreitenden Epidemie 
einem bestimmten Zeitpunkt im Häufigkeitssinn interpretieren zu können, muß 
man nur annehmen, die in einer ,Momentphotographie c für diesen Zeitpunkt 
festgehaltenen Bedingungen würden für eine unbegrenzte Zeit weiter gelten. 

Auch der vierte Ein wand ist nicht geeignet, zu einer Verwerfung der 
Häufigkeitstheorie zu führen. Der Subjektivist freilich wird das Verfahren, 
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den Begriff der Wahrscheinlichkeit von Einzelereignissen auf Umwegen und 
über eine künstliche Konstruktion einzuführen, für pervers halten. Denn 
nach ihm müssen die alltäglichen Wahrscheinlichkeitsaussagen, in denen von 
der Wahrscheinlichkeit von einzelnen Ereignissen die Rede ist, den Aus- 
gangspunkt für eine korrekte Explikation des Wahrscheinlichkeitsbegriffs 
bilden. Diese Auffassung kann der Subjektivist aber nur dann überzeugend 
verteidigen, wenn er aus anderweitigen Gründen seinem Verfahren 14 den Vor- 
zug gegenüber der Häufigkeitstheorie zu geben vermag. Ansonsten könnte 
sich der Limestheoretiker damit verteidigen, daß sein Verfahren allein ge- 
eignet sei, den Begriff der statistischen Wahrscheinlichkeit in adäquater Weise 
einzuführen, und daß man dabei Komplikationen bei der Deutung von Aus- 
sagen eben in Kauf nehmen müsse, wie dies ja auch sonst häufig bei Expli- 
kationen und Rekonstruktionen der Fall sei. 

Viel schwerwiegender als die ersten vier Argumente ist der fünfte Ein- 
wand. Da in der Grenzwertdefinition der statistischen Wahrscheinlichkeit 
weder eine Aussage über die ? Konvergenzgeschwindigkeit c gemacht wird, 
noch die Definition so verschärft werden kann, daß aus ihr eine Aussage 
über die gleichmäßige Konvergenz folgt, ist zunächst nicht einzusehen, wie 
derartig interpretierte statistische Hypothesen empirisch prüfbar (d. h. auf- 
grund von endlich vielen empirischen Daten überprüfbar) sein sollen, bei 
einer noch so weiten und liberalen Auslegung des Begriffs der Überprüfbar- 
keit. Doch da dieser Einwand nicht die Einführung des Wahrscheinlichkeits- 
begriffs betrifft, sondern den praktischen Umgang mit diesem Begriff, nämlich 
seine Verwendbarkeit für empirisch zu testende Aussagen, wollen wir von 
diesem Einwand ebenfalls abstrahieren. (Alternativ könnten wir sagen, daß 
wir fingieren wollen, man könne ein Verfahren zur empirischen Prüfung 
solcher Hypothesen entwerfen). Wir müßten auf ihn nur dann zurückkom- 
men, wenn kein weiterer überzeugender Einwand übrig bliebe. 

Die Einwände (6) und (8) sind die massivsten. Trotzdem soll auch der 
sechste Einwand hier nicht näher untersucht werden, und zwar aus zwei 
Gründen nicht. Erstens würde eine gewissenhafte Erörterung der Schlüssig- 
keit dieses Einwandes eine langwierige Abschweifung in das Gebiet 
„Konstruktive Begründung der Mathematik“ erforderlich machen; denn 
die Stellungnahme würde davon abhängen, ob man konstruktivistischen 
Skrupeln nachgibt oder von solchen frei sein zu dürfen glaubt, wie die Ver- 
treter der sog. klassischen Mathematik meinen. Der zweite Grund ist der, 
daß im Kampf der Theorien miteinander ein einiges schlagendes Argument 
zur Elimination einer Theorie genügt; overkill spielt nur in den Gehirnen 
mancher Militärstrategen eine — selbst dort überflüssige — Rolle. 

Der siebente Einwand ist ebenfalls ernst zu nehmen. Trotzdem ist es 
denkbar, daß der Limestheoretiker auch diesem entgeht : Er könnte darauf 

14 Gemeint ist natürlich: seinem Explikationsverfahren der statistischen 
Wahrscheinlichkeit, nicht der personellen Wahrscheinlichkeit ! 
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hinweisen, daß er zwar verlange, die unendliche Folge von Ereignissen sei 
durch voneinander unabhängige Realisierungen eines Versuchstyps erzeugt 
worden. Der dabei benützte Begriff der physikalischen Unabhängigkeit sei jedoch 
nicht identisch mit dem Begriff der stochastischen Unabhängigkeit 15 , obzwar man in der 
Praxis häufig von der einen Art von Unabhängigkeit auf die andere schließe. 
Während die stochastische Unabhängigkeit mittels der Formel (40) von 
Teil 0 definiert werde, sei der Begriff der physikalischen Unabhängigkeit im 
Sinn der Abwesenheit einer physikalischen Wechselwirkung zu verstehen, so daß 
das Eintreten oder Nichteintreten eines Ereignisses für das Eintreten oder 
Nichteintreten eines anderen ohne kausalen Einfluß sei. 

Diese Antwort ist zwar insofern noch unbefriedigend, als der darin be- 
nützte Begriff der physikalischen Unabhängigkeit bzw. der kausalen Irrele- 
vanz weiterer Explikation bedürftig ist. Doch wollen wir dem Limestheore- 
tiker das eine zugestehen, daß er dem Vorwurf des logischen Zirkels auf 
diese Weise prinzipiell entgehen kann und daß er, die eben erwähnte Expli- 
kation vorausgesetzt, seinen Begriff in dieser Hinsicht in logisch einwand- 
freier Weise eingeführt hätte. 

Der letzte Einwand ist nach meiner Auffassung für die Limestheorie tat- 
sächlich tödlich. Das Argument zeigt, daß diese Theorie praktische Sicherheit 
mit logischer Notwendigkeit verwechselt . Die statistische Wahrscheinlichkeit 
kann einfach deshalb nicht durch Häufigkeitskonvergenz definiert werden, 
weil die relativen Häufigkeiten nicht mit Notwendigkeit gegen den als 9 sta- 
tistische Wahrscheinlichkeit* bezeichnten Wert konvergieren, sondern nur 
P-fast sicher gegen ihn konvergieren, wie das Gesetz der großen Zahlen 
zeigt und das obige intuitive Beispiel veranschaulicht. Wollte man die 
Limesdefinition auf solche Weise verbessern, daß man im Definiens den ge- 
wöhnlichen durch den wahrscheinlichkeitstheoretischen Konvergenzbegriff 
ersetzt, so würde man in Schwierigkeiten geraten, die im Rahmen dieser 
Variante der Häufigkeitstheorie unlösbar sind. Man stünde nämlich vor 
einer doppelten Wahlmöglichkeit: entweder das Wahrscheinlichkeitsmaß, 
auf welches in der Wendung 5) P-fast sicher** Bezug genommen wird, mit 
dem zu definierenden Wahrscheinlichkeitsmaß zu identifizieren; oder aber 
dabei auf einen anderen, jedoch vollkommen analog zu definierenden Wahr- 
scheinlichkeitsbegriff zurückzugreifen. Im ersten Fall wäre die Theorie 
offenbar zirkulär , im zweiten Fall geriete sie in einen unendlichen Regreß 16 . 

Es bestünde allerdings noch die weitere Möglichkeit, das in „P-fast 
sicher** erwähnte Wahrscheinlichkeitsmaß in vollkommen anderer Weise zu 

15 Vgl. dazu v. Kutschera, [Offenes Problem], S. 9. 

16 Ein deutlicher Hinweis auf diese Konsequenz findet sich in de Finetti, 
[Rezension von Reichenbach]. Daß de Finetti sich auf den zweiten Punkt be- 
schränkt, ist darauf zurückzuführen, daß Reichenbach Hierarchien von Wahr- 
scheinlichkeiten immer höherer Ordnung auf baute, die er alle nach dem Verfahren 
der Limestheorie definierte. 
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deuten. Als einzige noch offenstehende Möglichkeit bliebe die subjektivisti- 
sche Deutung übrig. Dies wäre %war tatsächlich eine Lösung; aber sie käme einer 
Kapitulation vor dem Subjektivismus gleich. Damit hätte man ja zugegeben, daß 
der subjektivistische Wahrscheinlichkeitsbegriff der grundlegendere sei, 
den man für die Definition des objektiven Wahrscheinlichkeitsbegriffs — 
oder wie man jetzt genauer sagen sollte: für die Definition eines Analogons 
zum objektiven Wahrscheinlichkeitsbegriff — bereits vorauszusetzen hätte. 
Der JDbjektivisf hätte am Ende der Diskussion nur das \ ugestanden , was der 
ßubjektivisf von Anfang an behauptet hatte . 

Es ist vielleicht nicht uninteressant festzustellen, daß sich nicht nur 
die Limesdefinition in diese Schwierigkeit verstrickt. Auch andere Varian- 
ten der Häufigkeitstheorie werden vom Einwand (7) getroffen, z. B. die- 
jenige Variante, welche K. Popper in [L. F.] entwickelt 17 . Popper definiert 
dort zwar nicht die Wahrscheinlichkeit als Grenzwert relativer Häufigkeiten, 
doch hat sein Vorgehen Konsequenzen, die ebenso unhaltbar sind wie die 
der Limestheorie. In [L.F.], S. 145, heißt es, daß (nur) eine unendliche 
Ereignisfolge mit einem Wahrscheinlichkeitsansatz in Widerspruch stehen 
könne. Auf S. 147 wird gesagt, daß jede Wahrscheinlichkeitsaussage eine 
unendliche Klasse von Es-gibt- Sätzen impliziere, ja daß sogar noch eine 
stärkere Aussage folge, nämlich daß es immer wieder etwas mit einer be- 
stimmten Eigenschaft geben wird. (In unserem Laplace-Experiment mit 
dem Würfel: für jedes n gibt es ein k, so daß der (n -f k)-te Wurf ein Sechser- 
wurf ist.) Beide Behauptungen sind unrichtig. Nennen wir ein Ereignis 
P-fast unmöglich , wenn es P-fast sicher nicht eintritt, so können wir eine un- 
endliche Folge als mit einem statistischen Wahrscheinlichkeitsansatz P-fast 
unverträglich nennen, wenn sie bei Richtigkeit dieses Ansatzes P-fast unmög- 
lich ist. In der Wendung auf S. 145 müßte dann „in Widerspruch stehen“ 
ersetzt werden durch „P-fast unverträglich sein“. Analog wäre dann an der 
zweiten angegebenen Stelle „impliziert“ zu ersetzen durch den leicht de- 
finierbaren Begriff „folgt P-fast sicher“. Mit der Relativierung der ver- 
wendeten logischen Begriffe auf ein Wahrscheinlichkeitsmaß entstünde 
wiederum das obige Dilemma. 

Nur nebenher sei erwähnt, daß wegen der Nichtherleitbarkeit (im strengen 
Sinn) von Existenzbehauptungen aus Wahrscheinlichkeitsansätzen Poppers Ver- 
such der Abgrenzung von empirischen Sätzen gegenüber metaphysischen Aus- 
sagen für den Fall statistischer Hypothesen zusammenbricht. 



17 Wenn man auf diese Stelle in [L. F.] mit kritischen Bemerkungen zurück- 
kommt, so muß man aber sofort betonen, daß Popper diese Deutung später preis- 
gegeben hat, so daß dieser Einwand gegen seine spätere revidierte Auffassung 
nicht mehr vorgebracht werden kann. In [Propensity] skizziert er eine Interpreta- 
tion, die unserer späteren Deutung sehr ähnlich ist, nämlich daß es sich bei der 
statistischen Wahrscheinlichkeit um eine theoretische Disposition physikalischer 
Systeme handelt. (Für Details vgl. 12. b.) 
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Die Diskussion des letzten Einwandes darf nicht etwa dahingehend miß- 
verstanden werden, daß wir dem Subjektivismus Recht gegeben hätten. 
Wir haben bloß eine Konditionalaussage begründet: Wenn man an einem 
objektiven Begriff der statistischen Wahrscheinlichkeit festhalten möchte, 
dann kann seine Einführung nicht durch die von der Limestheorie vorge- 
schlagene definitorische Zurückführung auf den Begriff der relativen Häufig- 
keit erfolgen, es sei denn bei Strafe der Kapitulation vor dem Subjektivis- 
mus. Es besteht noch immer die Möglichkeit eines ganz andersartigen Aus- 
weges, der keine solche Kapitulation impliziert. Er besteht in der Preisgabe 
der reduktionistischen Grundannahme , welche besagt, der Begriff der statisti- 
schen Wahrscheinlichkeit müsse mittels bereits verfügbarer mathematischer 
und empirischer Begriffe explizit definierbar sein. 

Die acht geschilderten Einwendungen erschöpfen übrigens nicht sämt- 
liche Bedenken, welche gegen die Häufigkeitsdefinition der statistischen 
Wahrscheinlichkeit vorgetragen worden sind. Es seien noch weitere drei 
Einwendungen angeführt, die verschiedene Autoren dazu veranlaßten, von 
der Limestheorie abzurücken : 

(9) Ein strenger Aufbau der Statistik auf der Grundlage der Häufig- 
keitsdefinition ist praktisch unmöglich , weil diese Theorie viel zu kompli- 
ziert würde. Dieser Einfachheitsgesichtspunkt ist in neuester Zeit vor allem 
von P. Suppes in [Structures] unterstrichen worden. 

(10) Wenn man den Begriff der Wahrscheinlichkeit mittels des Begriffs 
des Grenzwertes definiert, dann wird die statistische Wahrscheinlichkeit 
entgegen der Intention aller Häufigkeitstheoretiker zu einem ordnungsab- 
hängigen Begriff \ Zwar setzt die Limestheorie nicht voraus, daß die Beob- 
achtungsergebnisse zeitlich geordnet sind. Doch muß angenommen wer- 
den, daß ein Prinzip vorliegt, gemäß welchem die Resultate eines Zufalls- 
experimentes zu ordnen sind. Sonst könnte nämlich der Fall eintreten, daß 
die relativen Häufigkeiten bei verschiedener Anordnung ein und derselben 
Folge verschiedene Grenzwerte besitzen, wodurch der Begriff der statistischen 
Wahrscheinlichkeit mehrdeutig würde. 

Als Beispiel betrachte man die Folge: 1,0, 1,0, 1,0. . ., die sich in die Folge: 
1, 1,0,1, 1,0, . . . umordnen läßt. Der Grenzwert der relativen Häufigkeiten von 
Einsen beträgt in der ersten Folge 1/2, in der zweiten hingegen 2/3. 

Für die üblichen statistischen Gesetze, wie z. B. „die statistische Wahr- 
scheinlichkeit, daß eine Geburt eine Knabengeburt ist, beträgt 0,508“ 
scheint dagegen jede Art von Ordnung vollkommen irrelevant zu sein. 
Braithwaite betrachtet dieses Argument als einen entscheidenden Einwand 
gegen die Limestheorie 18 . 

(11) Als letzten Einwand betrachten wir eine Überlegung von Popper, 
die nach seinen eigenen Worten für ihn das Hauptmotiv dafür bildete, seine 

18 Vgl. sein Buch [Explanation] S. 125. 
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Ansichten über die Natur der statistischen Wahrscheinlichkeit zu ändern 19 . 
Angenommen, wir haben zwei Würfel. Uns sei bekannt, daß der erste Würfel 
gefälscht ist, der zweite hingegen nicht. Aufgrund unseres bisherigen Wis- 
sens erscheint die Annahme als korrekt, daß die Wahrscheinlichkeit, mit 
dem gefälschten Würfel eine Sechs zu erzielen, 1/4 beträgt, und daß die 
Wahrscheinlichkeit, mit dem nicht gefälschten Würfel eine Sechs zu er- 
zielen, 1/6 ist. 

Obwohl die Frage, woher wir wissen , daß unsere Annahme richtig sei, im gegen- 
wärtigen Zusammenhang keine Rolle spielt, sei doch erwähnt, daß dieses — bei 
Zugrundelegung der objektivistischen Vorstellung natürlich immer hypotheti- 
sche — Wissen sich nicht nur auf statistische Daten zu stützen braucht. Ebenso 
können auch relevante nichtstatistische Erfahrungsdaten vorliegen. So kann z. B. 
die Annahme über den ersten Würfel auf zwei verschiedenartigen Erfahrungs- 
berichten beruhen: (d) auf der Kenntnis, daß bei der Herstellung dieses Würfels 
ein kleines Gewicht auf solche Weise eingebaut worden ist, daß die Sechserwürfe 
begünstigt werden (nichtstatistisches Datum); ( b ) auf einer großen Anzahl von 
vergangenen Versuchen mit diesem Würfel, bei denen die relative Häufigkeit der 
Sechserwürfe nahe bei 1/4 lag (statistisches Datum). Das Wissen ( a ) schließt den 
Verdacht aus, daß das Resultat (b) ,durch Zufall* zustande gekommen sei; das 
Wissen ( ’b ) wiederum ermöglicht einen quantitativen Wahrscheinlichkeitsansatz, 
zu dem wir aufgrund von ( a ) allein nicht gelangt wären. Ganz analog kann sich die 
statistische Hypothese über den zweiten Würfel außer auf das Beobachtungsresul- 
tat, daß viele Würfe mit diesem Würfel zu einer angenähert 1/6 betragenden rela- 
tiven Häufigkeit von Sechserwürfen führten, auf ein Wissen darum stützen, daß 
hier wirklich ein homogener und unverfälschter Würfel produziert worden ist. 

Wir betrachten nun eine unbegrenzte Folge F von Versuchen mit dem 
ersten Würfel, in die an einer uns nicht bekannten Stelle eine Folge von 
höchstens drei Würfeln mit dem zweiten Würfel 5 eingestreut* worden ist. 
Diese Einstreuung ändert nichts an der Tatsache, daß der Grenzwert der 
relativen Häufigkeiten der Sechserwürfe — der nach Voraussetzung für 
Folgen, die mit dem ersten Würfel allein erzeugt werden, 1/4 beträgt — 
ebenfalls 1/4 ist. Die Wahrscheinlichkeit, gemäß der Limestheorie als Eigen- 
schaft der Folge aufgefaßt, wäre also mit 1/4 anzusetzen, d. h. mit „G‘* für 
„eine 6 wird geworfen** würden wir erhalten: P(G, F) ~ 1/4. Vom intui- 
tiven Standpunkt aus würden wir im Widerspruch dazu sagen, daß in be- 
zug auf die wenigen Würfe mit dem nicht gefälschten Würfel die Wahr- 
scheinlichkeit einer Sechs 1/6 betrage, und daß nur für die übrigen Würfe 
die Annahme korrekt sei, diese Wahrscheinlichkeit betrage 1/4. 

Nachdem Popper zu zeigen versucht, daß dieser Konflikt zwischen kor- 
rekter Intuition und Häufigkeitsdefinition im Rahmen der Limestheorie 
nicht behebbar ist 20 , gelangt er zu dem Ergebnis, daß der Häufigkeits- 
theoretiker seine Theorie modifizieren muß, um mit diesem scheinbar so 
einfachen Problem fertig zu werden. Statt von einer (potentiellen oder 

19 Vgl. insbesondere [Propensitiy 2], S. 31 ff. 

20 a. a. O. S. 32/33. 
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aktuellen) Bezugsfolge auszugehen und die Wahrscheinlichkeit als ein Merk- 
mal dieser vorgegebenen Folge zu betrachten, muß er die Wahrscheinlichkeit als 
ein Merkmal der ,. Menge von erzeugenden Bedingungen c (“a property of the generat- 
ing conditions”) einer solchen Folge auffassen. Man könnte auch sagen: Er 
muß die Wahrscheinlichkeit als eine Eigenschaft der experimentellen Anordnung 
betrachten und kann sie nicht mehr als eine Eigenschaft der mittels dieser 
Anordnung erzeugten Folgen auffassen. Die Lösung des Problems besteht 
dann darin, daß zulässige Folgen nur solche sind, die durch wiederholte 
Versuche an ein und derselben experimentellen Anordnung entstehen. Zu- 
lässig sind in unserem Beispiel die Folge der durch den gefälschten Würfel 
erzeugten Wurfergebnisse sowie die Folge der durch den homogenen 
Würfel erzeugten Resultate. Dagegen ist die obige , Mischfolge* F jetzt für 
unzulässig zu erklären. Die drei eingeschmuggelten Resultate, die mit dem 
nicht gefälschten Würfel erzielt wurden, sind einer anderen experimentellen 
Anordnung zuzurechnen als diejenigen Resultate, welche mit dem gefälsch- 
ten Würfel erzeugt worden sind. 

Die Überlegungen Poppers sind insofern höchst interessant, als sie 
zeigen, wie eine prima facie geringfügige Modifikation einer Theorie zu einer 
ganz neuen Theorie führen kann. Popper selbst spricht vom Übergang von 
der Häufigkeitsdeutung zur Propensity-Deutung der statistischen Wahrscheinlich- 
keit 21 . In der Tat ist der Übergang zu dieser Interpretation, die in den folgen- 
den Abschnitten zugrunde gelegt (und später noch ausführlicher diskutiert) 
werden soll, von größter epistemologischer Signifikanz. Denn es ist der 
Übergang von einer definierbaren empirischen Größe , die beobachtbaren Folgen 
zugesprochen oder abgesprochen wird, zu einer empirisch nicht definierbaren 
theoretischen Disposition , die einer unbeobachtbaren physikalischen Realität 
zukommt. 

In die gegenwärtige Diskussion ist diejenige Deutung der statistischen Wahr- 
scheinlichkeit nicht einbezogen worden, die H. Cramer in [Statistics] auf S. 148 ff. 
anführt und mit der sich vermutlich viele praktisch arbeitende Statistiker zufrieden 
geben. Ich habe sie in Bd. I auf S. 644 die Vagheitsinterpretation genannt (vgl. die 
dortige Formulierung (/)). In dieser Interpretation werden verschiedene nicht 
näher präzisierte Ausdrücke verwendet, darunter auch die Wendung 99 es ist 
praktisch sicher , daß“ . Diese Interpretation eignet sich nicht für eine präzise wissen- 
schaftstheoretische Auseinandersetzung, da wegen der Vagheit ihrer Formu- 
lierung nicht feststeht, was eigentlich genau gemeint ist. Streng genommen darf 
man nicht einmal — wie ich dies in Bd. I tat — voraussetzen, daß es sich um eine 
Variante der objektivistischen Auffassung handelt. Denn falls das 99 praktisch 
sicher “ selbst wieder probabilistisch gedeutet wird , handelt es sich entweder um die Erzeu- 
gung eines unendlichen Regresses oder um eine versteckte Kapitulation vor dem Subjektivismus . 

l.c Der Vorschlag von Braithwaite, die statistische Wahrschein- 
lichkeit als theoretischen Begriff einzuführen, Braithwaite war 
vermutlich der erste Philosoph, der zwar einerseits an einer } objektivisti- 

21 a. a. O. S. 34. 
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sehen 4 Konzeption der statistischen Wahrscheinlichkeit festhalten wollte, 
der aber andererseits klar erkannte, daß dies nicht auf dem von den Häufig- 
keitstheoretikern beschriebenen Weg einer definitorischen Zurückführung 
auf den Begriff der relativen Häufigkeit möglich sei. Er versuchte im 
sechsten Kapitel seines Werkes [Explanation] durch Verwendung eines 
Schemas für die vernünftige Verwerfung von statistischen Hypothesen eine 
indirekte Charakterisierung des Begriffs der statistischen Wahrscheinlichkeit 
zu liefern. Dazu knüpfte er an das Theorem von Tschebyscheff an, 
welches wir in Teil 0 als Aussage (65) bewiesen haben. 

Für diejenigen Leser, welche unsere Bemerkungen über Braithwaite in dessen 
Werk nachprüfen wollen und daher den Zusammenhang zwischen unserem 
Symbolismus und dem von Braithwaite rasch erkennen möchten, seien einige 
Hinweise gegeben. Anstelle des Erwartungswertes fi benützt Braithwaite den 
Durchschnitt np, was mit unserer Formel (61) (a) im Einklang steht. Mit q= 1 —p 
ergibt sich innerhalb der Braithwaiteschen Formulierung für a 2 als zweites Mo- 
ment über dem Mittel einer Binomialverteilung der Wert npq , so daß statt der 
Standardabweichung a bei ihm der Wert ]jnpq auftritt. Die von uns in (65) mit 
1/k 2 bezeichnete kleine Zahl wird von Braithwaite k genannt, so daß überall dort, 
wo bei uns k als Faktor vorkommt, bei Braithwaite der Faktor l/]/k auftritt. Das 

Tschebyscheffsche Intervall reicht also bei ihm von np — j/ bis zu np -f- j/ 
bzw. dieses Intervall ist nach Teilung durch n identisch mit dem abgeschlossenen 

Intervall: [p- |/^f- ,P +}/ • 

Der Grund für die etwas ungewöhnlichen Formulierungen Braithwaites ist 
in folgendem zu erblicken: Braithwaite knüpft an ein Gedankenmodell von 
R. A. Fisher an, versucht dabei jedoch zugleich, die offenkundigen Mängel dieses 
Modells zu überwinden. Nach Braithwaites Überzeugung hatte bereits Fisher 
eine rein theoretische Deutung der statistischen Wahrscheinlichkeit intendiert, seinen Über- 
legungen jedoch eine unglückliche Fassung gegeben. Bei diesem Modell wird nur 
der diskrete Fall berücksichtigt, da gemäß einem Vorschlag von Kolmogoroff 
der kontinuierliche Fall als ein idealisiertes Schema betrachtet werden sollte, in 
dem Techniken entwickelt werden, um approximativ Wahrscheinlichkeiten zu 
gewinnen, die durch rationale Zahlenwerte darstellbar sind. Auf das Modell von 
Fisher sowie den Vorschlag von Braithwaite zur Verbesserung dieses Modells 
kommen wir sogleich zu sprechen. 

Wenn wir eine endliche Menge a von Objekten betrachten, so können 
wir empirisch feststellen, wie groß die relative Häufigkeit der Elemente von a 

ist, die auch zu einer Menge ß gehören. Diese Zahl ' heiße das 

Mengenverhältnis der Mengen a r\ ß und a. Hätten wir es nur mit endlichen 
Fällen zu tun, so könnten wir die statistische Wahrscheinlichkeit stets mit 
einem solchen Mengenverhältnis identifizieren; und damit wären statisti- 
sche Aussagen prinzipiell verifizierbar. Tatsächlich können wir ja z. B. den 
Satz: „die Wahrscheinlichkeit, daß ein Einwohner des Staates S eine Glatze 
hat, beträgt^)“ als gleichbedeutend auffassen mit der verifizierbaren Aussage: 
„die relative Anzahl der Kahlköpfigen in S beträgt p“. 
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Fisher hatte nun versucht, für den Fall unverifizierbarer statistischer 
Gesetzeshypothesen, die unter anderem auch für statistische Prognosen ver- 
wertet werden, den Begriff des Mengenverhältnisses zu verallgemeinern 
und von dem Mengenverhältnis eines hypothetischen unendlichen Gesamtheit zu 
sprechen. Gegeben sei eine ^hypothetische" unendliche Menge U sowie ein 
Merkmal A, das für die Objekte von U sinnvoll ist. Die statistische Wahr- 
scheinlichkeit dafür , daß ein U -Element das Merkmal A besitzt, wird als ein 
mit der unendlichen Menge U und dem Merkmal A assozüerter Parameter 
gedeutet, genauer: als eine Zahl p, die zwar nicht direkt ein Mengenver- 
hältnis repräsentiert, die jedoch in dem Sinn einem solchen Mengenver- 
hältnis ähnlich ist, als man daraus auf rein logischem Wege echte Mengen- 
verhältnisse ableiten kann. Diese Mengenverhältnisse beziehen sich stets auf 
Gesamtheiten, die erstens endliche Mengen von beobachtbaren Objekten bilden 
und die zweitens zufällige Stichproben (random samples) aus der hypotheti- 
schen unendlichen Grundmenge U darstellen. In einem anschaulichen Bild 
kann man sich U als eine unendliche Urne vorstellen, die sowohl weiße als auch 
schwarze Kugeln enthält, wobei der Wahrscheinlichkeitsparameter p den 
relativen Anteil der weißen Kugeln charakterisiert. Hinzuzudenken ist ferner 
eine experimentelle Vorschrift, die es gestattet, aus der Urne in willkürlicher 
und zufälliger Weise endliche Mengen von Kugeln zu ziehen. Jede derarti- 
ge endliche Kugelmenge repräsentiert eine endliche Gesamtheit von Beob- 
achtungen, für welche man das Mengenverhältnis feststellen kann. 

Dieses anschauliche Modell 4 dient nur der Erleichterung des Verständ- 
nisses, darf jedoch nicht wörtlich genommen werden. Braithwaite meint, 
man habe Fishers Auffassung folgendermaßen zu interpretieren: Sowohl 
der Begriff der hypothetischen unendlichen Grundgesamtheit U als auch der 
Begriff des mit U assoziierten Wahrscheinlichkeitsparameters p seien bild- 
hafte Veranschaulichungen rein theoretischer Begriffe , die keiner direkten 
empirischen Deutung fähig sind. Da jeder statistischen Hypothese aber ein 
derartiges Paar (U ; p) entspricht, sind statistische Hypothesen als theoreti- 
sche Hypothesen höherer Ordnung aufzufassen, die dadurch indirekt prüfbar wer- 
den, daß aus ihnen empirisch nachprüfbare Aussagen deduzierbar sind. Die 
endlichen Kugelmengen, welche man aus der unendlichen Urne durch Zu- 
fallsauswahl gewinnen kann, sind die anschaulichen Modelle derartiger 
nachprüfbarer Aussagen. 

Nun muß aber ein Modell, auch wenn es nur heuristischen Zwecken 
dienen soll, prinzipiell verständlich sein. Diese Bedingung ist nach Braith- 
waite — ganz abgesehen von dem vorläufig noch ungeklärten Begriff der 
zufälligen Auswahl — hier nicht erfüllt. Selbst wenn man das Sprechen über 
unendliche Totalitäten, wie dies in der klassischen Mathematik üblich ist, 
für unbedenklich hält, ergibt die Rede vom relativen Anteil der weißen 
Kugeln an der Kugelgesamtheit für den Unendlichkeitsfall zunächst über- 
haupt keinen Sinn. Fisher hat nachBRÄiTHWÄiTEZwei logisch unverträgliche 
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Gedanken miteinander zu vereinigen versucht: Um das Urnenmodell über« 
haupt anwenden zu können, mußte er von Urnen mit endlich vielen Kugeln 
ausgehen, für welche das Reden von Mengenverhältnissen einen präzisen 
Sinn hat. Damit sich durch die zufälligen Auswahlen aus der Urne das 
Mengenverhältnis nicht ändert, mußte der Urneninhalt als unendlich voraus- 
gesetzt werden; oder besser ausgedrückt: der Urneninhalt mußte als ein 
unerschöpfliches Reservoir mit stets gleichbleibendem Mengenverhältnis ge- 
deutet werden, das durch die Wegnahme einzelner Elemente nicht tangiert 
wird. Der Urne, welche die hypothetische Grundmenge symbolisiert, wer- 
den also gleichzeitig die Merkmale einer endlichen und die einer unendlichen 
Menge zugeschrieben. Dies ist ein Widerspruch . In der Terminologie der 
Stichprobenauswahl könnte man diese Begriffsverwirrung auch so charak- 
terisieren: Fisher versuchte vergeblich, das Verfahren der Stichprobenaus- 
wahl mit Ersetzung durch die Methode der Stichprobenauswahl ohne Er- 
setzung zu beschreiben. 

Diese letzte Bemerkung könnte man versuchsweise für eine Verbes- 
serung des Fisherschen Ansatzes verwenden: Wenn man jede gezogene 
Kugel nach Feststellung ihrer Farbe wieder in die Urne zurücklegt und den 
Urneninhalt ,gut mischt', so wird die Ausgangskonstellation wiederherge- 
stellt, ohne daß man voraussetzen muß, die Urne sei unendlich . Der Nachteil dieses 
zweiten Modells bestünde darin, daß man dabei die nebulösen Wendungen 
wie „gut mischen" und „die Ausgangskonstellation wiederherstellen" ge- 
brauchen muß 22 . 

Braithwaite selbst versucht, mit Hilfe seines Briareos- Modells der statisti- 
schen Wahrscheinlichkeit simultan den logischen Mangel des Fisherschen 
Modells und die Undeutlichkeit des eben erwähnten zweiten Modells zu 
überwinden, ohne auf die Vorzüge dieser Modelle zu verzichten. Er be- 
nennt sein Modell nach dem in der griechischen Mythologie vorkommen- 
den lOOarmigen Riesen Briareos, wobei er für ein beliebig vorgegebenes 
positives und ganzzahliges n ein solches /z-armiges Wesen annimmt. Eben- 
so wie im zweiten Modell geht er nur von endlichen Mengen (endlichen 
Urnen) aus, macht jedoch das dort benötigte 5 Zurücklegen' nebst 5 gutem 
Mischen' dadurch wieder überflüssig, daß er eine geeignete Klasse von 
solchen Mengen (Urnen) benützt. Angenommen, n Beobachtungen zur 
Prüfung einer statistischen Hypothese mit dem Wahrscheinlichkeitspara- 

22 Wenn man den statistischen Wahrscheinlichkeitsbegriff bereits zur Ver- 
fügung hat, kann diesen Wendungen ein klarer Sinn gegeben werden. Daß die 
Ausgangskonstellation dieselbe ist, heißt danach nichts anderes, als daß nach er- 
folgtem Zurücklegen und Mischen dieselbe Wahrscheinlichkeitsverteilung besteht. 
Und die Tätigkeit des guten Mischens liegt genau dann vor, wenn sie z u der eben 
präzisierten Ausgangskonstellation zurückführt. Da wir über den Begriff der statisti- 
schen Wahrscheinlichkeit noch nicht verfügen, dieser vielmehr mit Hilfe dieses 
Modells erst eingeführt werden soll, steht uns eine derartige Präzisierungsmöglich- 
keit nicht offen und die beiden Wendungen bleiben tatsächlich nebelhaft. 
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meter p wurden gemacht. (Im ersten Modell würde dies besagen: n Kugeln 
wurden aus der unendlichen Urne U gezogen; und im zweiten Modell: 
tf-mal wurde eine Kugel aus der Urne genommen, wieder zurückgelegt und 
die Urne wurde gut gemischt.) Braithwaite geht davon aus, daß n gleiche 
Urnen verfügbar sind, deren jede genau m Kugeln enthält. Die relative 
Häufigkeit p der weißen Kugeln, auch jetzt wieder Mengenverhältnis ge- 
nannt, sei für alle n Urnen dieselbe, (m wird zweckmäßigerweise als kleinste 
ganze Zahl gewählt, so daß p • m wieder eine ganze Zahl darstellt.) Ab- 
strakt gesprochen: Wir gehen von einer endlichen Klasse von n Mengen aus, 
deren jede m Elemente enthält und die zudem dasselbe Mengenverhältnis 
p aufweist 23 . Eine beobachtbare Stichprobe von n Objekten kommt nach 
diesem Modell in der Weise zustande, daß der n-armige Briareos gleichzeitig 
seine n Arme ausstreckt , mit jedem Arm in genau eine der n Urnen greift und aus 
jeder Urne genau eine Kugel herausholt . 

Ein konkretes Beispiel diene der Illustration. Zu überprüfen sei die sta- 
tistische Hypothese, welche besagt, die Wahrscheinlichkeit dafür, daß eine 
Geburt eine Knabengeburt sei, betrage 0,51. Die Überprüfung geschieht 
mittels einer Stichprobe von 1000 Geburten, von denen sich 519 als Knaben- 
geburten und 481 als Mädchengeburten erweisen. 

In die Sprechweise des Braithwaiteschen Modells übersetzt, wäre diese 
Sachlage so zu schildern: (1) Man stelle sich vor, daß eine Gesamtheit von 
1000 Urnen gegeben sei. (2) Jede dieser Urnen enthalte 100 Kugeln. (3) 
Außerdem sollen in jeder der 1000 Urnen genau 51 weiße Kugeln Vorkom- 
men (die übrigen 49 können z.B. jedesmal schwarz sein; doch dies ist un- 
wesentlich). (4) Ein lOOOarmiger Briareos ziehe gleichzeitig aus jeder 
Urne genau eine Kugel. (5) Eine empirische Untersuchung lehrt, daß von 
den dabei gezogenen 1000 Kugeln 519 weiß und 481 nicht weiß sind. 

An dem Beispiel dürfte deutlich geworden sein, wie das Modell dafür dienen 
soll, die vagen Begriffe des Ziehens, Zurücklegens und guten Mischens ebenso zu 
vermeiden wie die durch diese temporale Beschreibung fast zwangsläufig entstehende 
Versuchung, die Reihenfolge der Züge in Betracht zu ziehen. 

Braithwaites Grundgedanke besteht darin, auf diesem Wege den Be- 
deutungsgehalt der statistischen Hypothesen indirekt und partiell festzulegen: Die 
tatsächlich beobachteten Mengenverhältnisse dienen als Test für die Falsch- 
heit einer derartigen Hypothese und sind dadurch bestimmend für die Be- 
deutung dieser Hypothese, obwohl sie weder logische Folgerungen der 
Hypothese bilden noch mit ihr logisch unverträglich sind. (Daß keine logi- 
sche Unverträglichkeit bestehen kann, sieht man sofort, wenn man z. B. 
bedenkt, daß der lOOOarmige Briareos selbst bei Gültigkeit der ersten vier 

23 Was wir Mengen nennen, heißt bei Braithwaite Klasse, unserem Ter- 
minus „Klasse (von Mengen)“ entspricht bei Braithwaite der Ausdruck 
,, Hyperklasse (von Klassen)“. Statt von Familien von Klassen redet Braithwaite 
von Hyperhyperklassen. 
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Modellannahmen im Widerspruch zu (5) ausschließlich weiße Kugeln gezogen 
haben könnte.) 24 

In der abstrakten Variante seiner Theorie nennt Braithwaite eine Klasse von 
Mengen mit identischem Mengenverhältnis eine Wahrscheinlichkeitsklasse (in seiner 
Terminologie: eine Wahrscheinlichkeitshyperklasse). Die Gewinnung der Formel 
für die Binomialverteilung und der Regeln für die verschiedenen Momente wird 
bei diesem Vorgehen auf die Arithmetik der Mengen- und Klassenverhältnisse 
zurückgeführt, wobei nur elementare algebraische Umformungen benötigt wer- 
den. Für das Tschebyscheffsche Theorem ergeben sich dabei die oben angegebe- 
nen Intervallgrenzen. Diejenigen Leser, welche an den Rechenergebnissen im 
Braithwaiteschen Modell interessiert sind, finden alle relevanten Einzelheiten im 
Kap. VI sowie dem Anhang zu diesem Kapitel im Buch von Braithwaite. 

Bei der Beschäftigung mit diesem Modell darf man eines nicht über- 
sehen: Trotz der geschilderten Beseitigung von Mängeln anderer Modelle 
ist und bleibt das Braithwaitesche Modell nichts weiter als ein intuitiver Zugang %um 
Begriff der statistischen Wahrscheinlichkeit . Sollte dagegen mit dem Modell 
der Anspruch verbunden werden, eine Explikation für den Begriff der sta- 
tistischen Wahrscheinlichkeit geliefert zu haben, so könnte z. B. ein Ver- 
treter der personaüstischen Schule die ironische Bemerkung machen, daß 
hier nicht bloß auf einen mythologischen Begriff zum Zwecke der Erläu- 
terung zurückgegriffen wurde, sondern daß Braithwaite vielmehr jener 
Mythologie eine Briareos-Hypermythologie superponiert habe. 

Ein derartiger Vorwurf wäre jedoch unberechtigt. Die Tatsache, daß 
Braithwaite im siebenten Kapitel von [Explanation] eine indirekte Bedeu- 
tungsfestlegung der statistischen Wahrscheinlichkeit mittels einer Ver- 
werfungsregel versucht, zeigt, daß er nicht in dem intuitiven Briareos-Modell, 
sondern in dieser Regel das Mittel für die Explikation des Begriffs der sta- 
tistischen Wahrscheinlichkeit erblickt. 

Unter dem Tschebj sehe ff sehen Intervall verstehen wir das abgeschlossene 
Intervall, welches in der Terminologie von Teil 0, Satz (65), als das Inter- 
vall [ja — ko, jji + ko] beschreibbar ist und welches innerhalb des Braith- 

nk 

tisch ist. Dieses Intervall hängt jedesmal von einem Parameter k ab. Um 
Eindeutigkeit zu erzielen, knüpfen wir an unsere Formulierung in (65) an. 
Eine statistische Hypothese schreibe einem Ereignis E eine Wahrscheinlich- 
keit P{E) zu. Braithwaite formuliert jetzt eine Klasse von k- Verwerfungs- 
regeln. Das Schema für diese Regeln lautet: „ Wähle eine beliebig große positive 
Zahl k. Nimm außerdem n Versuche vor . Verwirf die Hypothese, wenn die relative 
Häufigkeit der Resultate , die nicht %u E gehören , aus dem Tschebyscheffschen Inter- 
vall herausfallen !“ 

24 Allerdings scheint Braithwaite nicht zu bemerken, daß er von dieser Stelle 
an stillschweigend von einer Likelihood-Überlegung Gebrauch macht. Die Natur 
solcher Überlegungen soll später genauer analysiert werden. 
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(In der Terminologie von Braithwaite ist eine beliebig kleine Zahl k zu 
wählen; denn sein k entspricht unserem 1/k 2 . Ferner ist bei Zugrundelegung 
seines Intervalls natürlich p — P(E ) und q= 1 —p zu setzen.) 

Die etwas umständliche Begründung, welche Braithwaite für seine 
Regel gibt, wird durchsichtiger, wenn man dafür eine Likelihood-Überle- 
gung heranzieht, an welche auch Braithwaite implizit appelliert. Ange- 
nommen, die statistische Hypothese sei falsch . Dann erfolgt die Verwerfung 
sicherlich zu Recht; denn dann kann überhaupt keine Verwerfungsregel zu 
Fehlern führen, wie immer diese Regel formuliert sein mag. Angenommen 
hingegen, die statistische Hypothese sei richtig. Dann müßte sich, um das Be- 
obachtungsresultat erhalten zu haben, etwas außerordentlich Unwahrschein- 
liches ereignet haben, nämlich etwas, das wegen des Theorems (65) eine 
Wahrscheinlichkeit besitzt, die kleiner ist als 1/k 2 . Da wir nicht annehmen 
wollen, etwas so Unwahrscheinliches habe sich ereignet, besteht unsere Ver- 
werfung vermutlich zu Recht. 

Natürlich können wir uns bei dieser zweiten Überlegung geirrt haben: 
Es ist nicht logisch ausgeschlossen , daß man bei Befolgung dieser Regel eine richtige 
Hypothese verwirft , selbst wenn 1/k 2 sehr klein war. Braithwaite betont daher, 
daß im statistischen Fall nicht nur das Akzeptieren, sondern auch das Ver- 
werfen einen prinzipiell vorläufigen Charakter habe, also etwas prinzipiell 
Provisorisches sei. Braithwaites Regeln sind empirische Test-Regeln von 
verschiedenem Schärfegrad. Je kleiner die Zahl 1/k 2 , desto schärfer der Test. 
Mit zunehmender Testschärfe wird die Gefahr, Wahres zu verwerfen, 
zwar sukzessiv geringer; sie ist jedoch niemals völlig auszuschließen. 

Wir wollen diesen letzten Punkt hier nicht weiter verfolgen, da wir ihn 
in l.d genauer betrachten werden. Im Augenblick interessiert uns nur 
Braithwaites These, durch sein Schema von k-V erwerfungsregeln einen 
Beitrag %ur Analyse der Bedeutung der statistischen Wahrscheinlichkeit geliefert %u 
haben. 

Gegen diese These kann man einen tödlichen Einwand Vorbringen: Wäh- 
rend Braithwaite beansprucht, einen bestimmten Begriff zu explizieren, 
macht er in Wahrheit den Begriff der statistischen Wahrscheinlichkeit unend- 
lich vieldeutig. Jede seiner Verwerfungsregeln ist zu relativieren auf einen 
bestimmten frei wählbaren Parameter k. Wenn die statistische Wahrschein- 
lichkeit mittels dieser Regeln expliziert werden sollte, dann dürfte eigent- 
lich nur von k-Wahrscheinlichkeiten die Rede sein (für beliebiges reelles k). 
Statt eines Explikates y statistische Wahrscheinlichkeif erhalten wir ein ganzes 
Kontinuum von Explikaten } k- Wahrscheinlichkeiten' wobei noch zusätzlich 
hinzuzufügen wäre, daß die Elemente dieses Kontinuums, die reellen Zah- 
len k, nur durch subjektive Wahlakte festgelegt sind. 

Es scheint, daß Braithwaite eine ähnliche Verwechslung unterlaufen ist 
wie den früheren Empiristen: Bedeutungsanalysen sollten danach auf dem 
Wege der Schilderung von Prüfungsverfahren erfolgen. Aber diese beiden 
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Dinge sind voneinander zu trennen. Und der Fall der statistischen Wahr- 
scheinlichkeit zeigt besonders deutlich, daß sie getrennt werden müssen , 
will man nicht in den Sog von Ungereimtheiten hineingeraten. Braithwaite 
hat mit seinen Überlegungen einen Beitrag zur erkenntnistheoretischen Klärung der 
Natur des Prüfungsverfahrens statistischer Hypothesen geliefert. Er hat dagegen 
nicht die Aufgabe gelöst , den Sinn von „statistische Wahrscheinlichkeit “ z u expli- 
zieren. 

Diese kritische Auseinandersetzung mit der Auffassung von Braith- 
waite sollte nur einen Vorgeschmack von den Schwierigkeiten geben, die 
man zu überwinden hat, wenn man zu einer adäquaten Explikation des 
Begriffs der statistischen Wahrscheinlichkeit gelangen will. 

Anmerkung: Es sei noch ein weiterer kritischer Hinweis gegeben, der sich auf 
das Kap. VII von Braithwaite, [Explanation], bezieht. Dort werden verschie- 
dene statistische Hypothesen miteinander verglichen und es wird ein Begriff ein- 
zuführen versucht, den ich einen komparativen Begriff der Bestätigung oder der 
Stützung von statistischen Hypothesen nennen würde. Merkwürdigerweise 
knüpft Braithwaite bei diesen Überlegungen überhaupt nicht mehr an seine Ver- 
werfungsregeln an, sondern geht unvermittelt in eine entscheidungstheoretische Be- 
trachtungsweise über. Solche Übergänge von rein theoretischen* zu praktischen* 
Betrachtungsweisen findet man in der Statistik vielfach. Wie wir in Abschn. 10 
sehen werden, ist vor allem auch die Theorie der Schätzung von solchen Über- 
gängen durchseucht; und auch Carnap war davon vermutlich angekränkelt. Bei 
Braithwaite ist dieser Übergang deshalb so merkwürdig, weil er den empiri- 
schen Gehalt statistischer Hypothesen durch eine Testregel von der Gestalt einer 
Verwerfungsregel zu klären versuchte und weil man daher erwarten würde, daß 
er in seiner Theorie der komparativen Stützung und des Tests statistischer Hypo- 
thesen an diese Regel anknüpfen, sie evtl, modifizieren, verbessern sowie ergänzen, 
aber sie nicht gänzlich vergessen würde. 

l.d Vorbereitende Betrachtungen zur Testproblematik statistischer 
Hypothesen. Eine ungefähre Vorstellung von der Eigenart sowie von 
den spezifischen Schwierigkeiten der Prüfung statistischer Hypothesen 
dürfte man am besten in der Weise gewinnen, daß man einen Vergleich mit 
dem Verfahren der Prüfung deterministischer Gesetzesaussagen anstellt. 
In den ersten Schritten knüpfen wir dabei an Poppers Begriff der Falsifika- 
tion an. Um Mißverständnisse auszuschließen, sei ausdrücklich betont, daß 
mit den folgenden Bemerkungen weder beansprucht wird, eine adäquate 
Schilderung der Popperschen Testtheorie zu geben, noch daß darin die 
Poppersche Position kritisiert werden soll. Die Kontrastbildung dient aus- 
schließlich als Hilfsmittel für die Gewinnung eines vorläufigen Verständ- 
nisses der Testproblematik statistischer Hypothesen. 

(I) Für wissenschaftliche Prognosen verwertbare deterministische Ge- 
setzeshypothesen 25 sind nicht verifizierbar, jedoch prinzipiell falsifizierbar. 

25 Darunter verstehen wir hier stets unbeschränkte Allsätze, die evtl, noch ein 
Kriterium der Gesetzesartigkeit erfüllen müssen. Auf die Frage, ob und wie ein 
derartiges Kriterium zu formulieren wäre, brauchen wir hier nicht einzugehen. 
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Poppers deduktive Methode der Nachprüfung knüpft an diesen logischen 
Sachverhalt an : Wir überprüfen deterministische Gesetzesannahmen, indem 
wir sie für die Ableitung von Voraussagen benützen. Trifft das Vorausge- 
sagte zu, so hat sich die Hypothese vorläufig bewährt; trifft es nicht zu, so 
ist sie empirisch widerlegt oder falsifiziert. Von effektiver Falsifikation 
kann allerdings nur relativ auf anerkannte empirische Daten gesprochen 
werden. Daher braucht eine effektiv falsifizierte Hypothese nicht falsch zu 
sein; es könnte ja sein, daß die für die Falsifikation benützten Daten un- 
richtig waren. Eine Falsifikation kann daher rückgängig gemacht werden, 
jedoch nur in der Weise, daß begründete Zweifel an der Richtigkeit der 
falsifizierenden Daten auftreten und daß man diese Zweifel durch rationale 
Argumente so stark untermauert, daß diese Daten preisgegeben werden. 
Trotzdem kann man festhalten : 

Relativ auf anerkannte empirische Daten ist eine deterministische Geset^eshypo - 
these effektiv falsifi^ierbar . 

Illustrationsbeispiel: Die Hypothese laute: „Alle Störche haben rote 
Beine“. Diese Hypothese ist effektiv falsifiziert, sobald man z. B. feststellt, 
daß im Hamburger Zoo eine Storchenfamilie lebt, die grüne Beine hat. Trotz 
dieser effektiven Falsifikation könnte die Hypothese richtig sein. Denn es 
könnte ja der Fall sein, daß die im Hamburger Zoo zu beobachtenden Vögel 
gar keine Störche sind. Ein Witzbold könnte an einem Käfig, in dem stor- 
chenähnliche Vögel leben, die Tafel „Störche“ angebracht haben; die Tiere 
könnten bei der Sendung verwechselt worden sein usw. Solche Möglich- 
keiten bestehen immer. Man wird sie dann ernsthaft in Erwägung ziehen 
müssen, wenn schwerwiegende Gründe für sie vorgebracht wurden. So- 
lange man aber den Beobachtungsbericht, daß es sich wirklich um Störche 
mit grünen Beinen handelt, nicht bestreitet, wird man die erwähnte Hypo- 
these für falsifiziert ansehen. Diese Falsifikation ist definitiv, soweit am Da- 
tum festgehalten wird : 

Die empirische Widerlegung deterministischer Geset^eshypothesen relativ %u 
anerkannten Daten ist endgültige d. h. sie kann nur nach einer Verwerfung die- 
ser Daten rückgängig gemacht werden . 

Wenden wir uns jetzt statistischen Hypothesen zu. Auch hier wird sich 
eine brauchbare Testtheorie damit bemühen müssen, die Umstände zu be- 
schreiben, unter denen eine statistische Hypothese zu verwerfen ist. Tat- 
sächlich wird in der statistischen Testtheorie versucht, einen Begriff der ver- 
nünftigen Verwerfung (im Englischen: “reasonable rejection”) statistischer 
Hypothesen zu explizieren. Prima facie könnte es so scheinen, als handele es 
sich dabei um nichts anderes als darum, den zunächst nur auf deterministische 
Hypothesen anwendbaren Begriff der Falsifikation in einer plausiblen Weise %u dem 
der vernünftigen Verwerfung statistischer Hypothesen %u erweitern . 
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Diese Art und Weise, an das Problem der Prüfung statistischer Hypo- 
thesen heranzutreten, birgt eine große Gefahr in sich. Man übersieht dabei 
nämlich leicht die logische Kluft , welche zwischen dem Begriff der Falsifika- 
tion einerseits und dem Begriff der vernünftigen Verwerfung andererseits 
besteht, wie immer die endgültige präzise Explikation dieses Begriffs lauten 
möge. Diese logische Kluft ist u. a. von Braithwaite deutlich gesehen 
worden. Insofern können wir der Skizze seiner Theorie in l.c, ungeachtet 
unseres negativen Ergebnisses bezüglich seines Versuchs zur Explikation 
des Begriffs der statistischen Wahrscheinlichkeit, doch wieder einen wich- 
tigen positiven Aspekt abgewinnen. Braithwaite hat nämlich ganz klar 
erkannt, daß die Verwerfung einer statistischen Hypothese relativ auf aner- 
kannte Daten prinzipiell provisorisch sein muß. Das „prinzipiell provisorisch“ 
ist dabei folgendermaßen zu verstehen: Auch ohne die bisherigen Daten, 
auf die sich eine solche Verwerfung stützte, irgendwie anzufechten, kön- 
nen wir genötigt sein, die Verwerfung wieder rückgängig zu machen , weil zu- 
sätzliche Daten dies erzwingen. Genauer: 

Die empirische Verwerfung statistischer Gesetzeshypothesen ist relativ z u 

anerkannten Daten niemals endgültige sondern prinzipiell provisorische d. h. sie 

ist bei Hinzutreten neuer Daten rückgängig zu machen , ohne daß dabei die frühe- 
ren Daten angefochten zu werden brauchen . 

Bevor wir diesen (nur scheinbar merkwürdigen) Sachverhalt logisch 
analysieren, wollen wir ihn an einem elementaren Beispiel illustrieren. Ge- 
geben sei ein Würfel. Es wird die Laplace-Hypothese auf gestellt, daß jede 
Augenzahl dieselbe Wahrscheinlichkeit des Eintreffens nach einem Wurf 
habe, nämlich 1/6. Aus dieser Verteilungshypothese sondern wir die elemen- 
tare statistische Wahrscheinlichkeitshypothese aus, daß die Augenzahl 6 eine 
Wahrscheinlichkeit von 1/6 hat — kurz: P(6) = 1/6 — , und machen nur 
diese elementare Hypothese zum Objekt unserer Prüfung. Dazu werde der 
Würfel 20mal geworfen. Eine Auszählung der verschiedenen Wurfarten 
ergebe: 1 Einserwurf, 3 Zweierwürfe, 1 Dreierwurf, 1 Viererwurf, 2 Fün- 
ferwürfe, 12 Sechserwürfe. Wir werden die Hypothese verwerfen und ange- 
sichts dieses Beobachtungsdatums die neue Hypothese aufstellen, daß der 
Würfel zugunsten der Augenzahl 6 verfälscht sei und daß daher die 
Wahrscheinlichkeit, eine 6 zu werfen, wesentlich höher sei als 1/6. (Eine 
quantitative Präzisierung braucht nicht zu erfolgen.) Die Verwerfung der 
ursprünglichen Hypothese im Lichte dieses Beobachtungsdatums wird man 
zunächst als durchaus vernünftig ansehen. Angenommen nun, eine genauere 
physikalische Untersuchung des Würfels liefere keinerlei unabhängige Stüt- 
zung der Hypothese der Fälschung, so daß der Verdacht aufkommt, die ur- 
sprüngliche Hypothese sei zu Unrecht verworfen worden. Man entschließt 
sich für einen nochmaligen statistischen Test und nimmt diesmal 300 weitere 
Würfe vor. Er stellt sich heraus, daß rund 1 /6 der Würfe Sechserwürfe sind. 
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In diesem Fall wird man die Verwerfung der ursprünglichen Hypothese % urückneh - 
men und sie damit für weitere Verwendung zulassen. Wie ist dies möglich? 

Um diese Frage zu beantworten, versuchen wir zu analysieren, worauf 
sich die ursprüngliche Überlegung stützte. Man kann sie etwa so skizzieren: 
„Angenommen, die Hypothese P(6) = 1/6 sei richtig. Dann hätte sich mit 
dem Ereignis ,12 Sechserwürfe in einer Folge von 20 Würfen c etwas unge- 
heuer Unwahrscheinliches ereignet. Da nicht anzunehmen ist, daß sich vor 
unseren Augen etwas so Unwahrscheinliches abgespielt hat, verwerfen wir 
die Hypothese, da sie vermutlich falsch ist.“ Zweierlei ist hierzu zu bemerken : 

(1) Der eben geschilderte Gedankengang stellt ein typisches Beispiel 
für eine Likelihood-Überlegung dar: Man fingiert darin in einem ersten Schritt, 
die zur Diskussion stehende statistische Hypothese sei richtig. Dann stellt 
man relevante Beobachtungen an und beurteilt die Wahrscheinlichkeit dafür , 
daß sich das , was sich tatsächlich ereignet hat , unter der fingierten Annahme der 
Wahrheit der statistischen Hypothese ereignen würde . Ergibt sich eine sehr niedri- 
ge Wahrscheinlichkeit, so verwirft man die Hypothese. (Eine quantitative 
Präzisierung kann man in der Weise einführen, daß man genau angibt, 
bei welchem Unwahrscheinlichkeitsgrad die Verwerfung einzusetzen hat.) 
Da es nicht um die Beurteilung dessen geht, was sich tatsächlich ereignet 
hat — denn daran wird nicht gerüttelt — , sondern um die Beurteilung der 
Hypothese, nennt man den erhaltenen Grad der Wahrscheinlichkeit (des 
Beobachteten unter der Annahme der Richtigkeit der Hypothese) auch die 
Likelihood der Hypothese relativ %um Beobachtungsbefund. 

(2) Wie die Analyse weiter zeigt, war die Verwerfung durchaus ver- 
nünftige da sie sich auf eine überzeugende Plausibilitätsbetrachtung stützte. 
Trotzdem war diese Verwerfung nicht logisch zwingend. Etwas sehr Unwahr- 
scheinliches könnte sich ja ereignet haben! Davon, daß sich sehr Unwahr- 
scheinliches tatsächlich ereignet, weiß jeder Gewinner des großen Loses zu 
berichten. Daß sich sogar ungeheuer Unwahrscheinliches ereignen kann, 
erfahren zu ihrer Bestürzung die Angehörigen von Personen, welche durch 
einen Meteoriten getötet worden sind 26 . 

An diese Tatsache (2), wonach vernünftige Verwerfung nicht Falsifika- 
tion bedeutet, knüpfte das Revisionsargument an: Eine analoge Likelihood- 
Betrachtung, für welche die Beobachtung von 300 weiteren Würfen zu- 
grunde gelegt wurde, führt zu dem Resultat, daß die Hypothese vermutlich 

26 Nach vorliegenden Informationen ist die Wahrscheinlichkeit, von einem 
Meteoriten getötet zu werden, grob geschätzt etwa 1/6000 der Wahrscheinlichkeit, 
daß große Los zu gewinnen. Natürlich wissen wir auch von diesen zur Verständ- 
lichmachung der These „sehr Unwahrscheinliches ereignet sich“ herangezogenen 
Hypothesen nicht, ob sie richtig sind, so daß es sich dabei nicht um eine Be- 
gründung , , sondern nur um eine Veranschaulichung handelt. Schon im kommenden 
Jahr kann ein tödlicher Meteoritenschwarm über der Erde niedergehen oder es 
kann ein Riesenmeteorit einfallen, von dem eine unvorstellbare Katastrophenwir- 
kung für die Menschheit ausgeht. 
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richtig ist. Der Widerspruch zwischen diesem Resultat und dem Ergebnis 
der Überlegung (1) wird zuungunsten von (1) entschieden. Da nämlich die 
neue Beobachtungsreihe viel länger ist als die alte (genauer: 15mal so lang), 
ist auch das für die Hypothese sprechende Argument 9 empirisch viel besser 
fundiert als das dagegen sprechende Argument. Es kommt somit yur Zurück- 
nahme der Verwerfung , Damit muß man ausdrücklich die Feststellung in 
Kauf nehmen, daß sich im Gegensatz zu der in (1) ausgesprochenen An- 
nahme vermutlich doch bei der ersten Reihe von 20 Würfen etwas sehr 
Unwahrscheinliches ereignet hat. 

Wir wollen den Unterschied zwischen dem deterministischen und dem 
statistischen Fall durch Bilder veranschaulichen (die wir hier nur beschrei- 
ben, die der Leser aber aufgrund der Beschreibung zeichnen kann.) Für 
beide Falltypen mögen zwei Körbe zu Verfügung stehen. Der Korb Nr. I 
enthält die vorläufig akzeptierten und zur weiteren Prüfung zugelassenen 
Hypothesen H ly H 2 und H z . Im Korb Nr. II sollen sich die verworfenen 
Hypothesen AT 4 , H h und H z befinden. 

Fall 1 : Alle Hypothesen seien deterministisch . Wir betrachten H v Diese 
Hypothese werde einem empirischen Test unterworfen. Hält sie der Prü- 
fung stand, so bleibt die eben beschriebene Situation unverändert. Wurde 
H x hingegen durch den Test empirisch widerlegt, so wandert diese Hypo- 
these in den Korb Nr. II. 

Sofern kein Grund dafür besteht, die falsifizierenden Daten anzufechten, 
bleiben die in Korb Nr. II befindlichen Hypothesen endgültig darin. Diese 
? Dateninvarianz c wollen wir für das Folgende stets annehmen. 

Fall 2: Alle Hypothesen seien statistisch . Aufgrund einer Likelihood-Über- 
legung von der weiter oben geschilderten Art werde die Verwerfung von 
H 1 empfohlen. H x wandert also ebenfalls von I in II. Eine Revisionsüber- 
legung empfehle jedoch die Rückgängigmachung der Verwerfung. H x 
wandert von II in I zurück. Es können also Bewegungen nach beiden Rich- 
tungen hin 4 Vorkommen. Das „ falsifiziert 44 vom deterministischen Fall muß 
daher im statistischen Fall durch J5 vorläufig verworfen 44 ersetzt werden . 

Prinzipiell kann sich dieses Verfahren beliebig oft wiederholen. In un- 
serem Beispiel kann sich etwa nach Beobachtung von 1500 Würfen wieder 
ein ähnliches Überhandnehmen der Sechserwürfe zeigen wie nach der ersten 
Beobachtung usw. 

Tatsächlich jedoch werden wir, falls wir wirklich sukzessive zu solchen 
merkwürdigen, einander zwar nicht logisch widersprechenden, aber mit- 
einander logisch unverträgliche Hypothesen begünstigenden Beobach- 
tungsfolgen gelangen sollten, das Spiel nicht in dieser Weise unbegrenzt 
weiterspielen. Vielmehr werden wir nach einiger Zeit eine zunächst stillschweigend 
als gültig vorausgesetzte Oberhypothese in Zweifel ziehen und diese einem Test unter- 
werfen. In unserem Beispiel wird dies die Hypothese sein, daß eine Binomial- 
verteilung vorliegt . Nur unter dieser Oberhypothese war das Problem allein 
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dies herauszubekommen, wie der Parameter der Binomialverteilung lautet. 
Das Problem der Überprüfung statistischer Oberhypothesen soll an dieser 
Stelle nicht weiter verfolgt werden. Es sei nur erwähnt, daß diese Über- 
prüfung den theoretischen Effekt haben kann, daß man den Sachverhalt 
nicht mehr wie zuvor unter einem statischen , sondern unter einem dynami- 
schen Gesichtspunkt betrachtet, d. h. daß man die neue Oberhypothese auf- 
stellt: „Die Wahrscheinlichkeit der Sechserwürfe ändert sich nach einer be- 
stimmten, noch ,zu entdeckenden* Regel“ 27 . 

(II) Was hier erörtert werden soll, hängt logisch unmittelbar mit den in 
(I) geschilderten Gedanken zusammen. Es sind mehr psychologisch-didak- 
tische Gründe, welche eine gesonderte Erwähnung als ratsam erscheinen 
lassen. Bei den Überlegungen von (I) stand allein die Alternative „ An- 
nehmen- Verwerfen“ im Vordergrund. Diesmal gehen wir zusätzlich von 
der semantischen Alternative „Wahr-Falsch“ aus. Wir setzen dabei voraus, 
daß jeder sinnvolle Deklarativsatz entweder wahr ( richtig ) oder falsch ( un- 
richtig ) ist. Da wir Wahrheit anstreben und Falschheit vermeiden wollen, 
müssen wir diese zweite Alternative als die grundlegendere betrachten. 

Unsere Intentionen und unsere Hoffnungen gehen also dahin, zu rich- 
tigen Hypothesen zu gelangen. Leider ist selbst in dieser Hinsicht die Ge- 
schichte des Alltags wie der Wissenschaften auch eine Geschichte immer 
wieder zerstörter Hoffnungen. Wissenschaftler aus allen Gebieten mußten 
oft diese bittere Erfahrung machen. Mit welchen Fehlergefahren müssen wir 
also rechnen, wenn wir Hypothesen entwerfen ? Diese Frage kann nicht 5 in 
einem Atemzug* für deterministische wie für statistische Hypothesen beant- 
wortet werden. Vielmehr müssen wir hier differenzieren. 

Bei der Aufstellung deterministischer Hypothesen besteht ( relativ auf aner- 
kannte empirische Daten ) nur die Gefahr , Falsches akzeptieren , weil man 

es irrtümlich für richtig hält . 

Die Wendung „relativ auf anerkannte empirische Daten** haben wir in 
Klammern gesetzt, weil diese Art von Relativierung, auf die wir schon in 
(I) aufmerksam machten, immer hinzugedacht werden muß, so daß wir sie 
zwecks Vermeidung von Komplikationen in der Formulierung von nun an 
weglassen- wollen. Die eben genannte Fehlergefahr nennt man in der sta- 
tistischen Testtheorie den Typ-II-Fehler. Der Fehler wird begangen, wenn 
Falsches irrtümlich für richtig gehalten und daher akzeptiert wird . Bei der Prüfung 
statistischer Hypothesen muß man den dazu dualen Fehler, der Typ-I-Fehler 
genannt wird, jedoch genauso ernst nehmen, nämlich den Fehler, Wahres 
irrtümlich für falsch %u halten und es daher z u verwerfen . Dies ist eine Konse- 
quenz dessen, daß statistische Hypothesen nicht nur, ebenso wie determini- 

27 ,Zu entdeckende* Regel heißt natürlich wieder nur: Wir können eine der- 
artige Regel hypothetisch annehmen, die durch die vorliegenden Daten gestützt ist. 
Man beachte, daß diese Daten nun aus verschiedenen Beobachtungsreihen von ver- 
schiedener Länge bestehen! 
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stische, nicht verifizierbar sind, sondern daß sie außerdem, zum Unter- 
schied von deterministischen Hypothesen, nicht falsifiziert werden können. 

Die von Popper für deterministische Hypothesen mit Recht betonte 
Asymmetrie zwischen Verifizierbarkeit und Falsifizierbarkeit gilt hier nicht, 
vielmehr eine vollständige Symmetrie von Nichtverifi^ierbarkeit und Nichtfalsi- 
fi^ierbarkeit. Dies macht es von neuem deutlich, daß eine Theorie der Prü- 
fung, welche im Begriff der vernünftigen Verwerfung — mag diese sich nun 
auf den Likelihoodbegriff stützen oder nicht — nichts weiter als eine 
5 natürliche e Verallgemeinerung des Begriffs der Falsifikation erblickt, von 
vornherein zur Einseitigkeit verurteilt ist: Sie würde sich bei der Analyse des 
Begriffs der Prüfung statistischer Hypothesen einseitig am Modell der Gefahr des 
Typ-II-Fehlers orientieren , unter Vernachlässigung der gleich ernst nehmenden 
Gefahr des Typ-I-Fehlers. 

Die Wahrscheinlichkeiten, einen der beiden Typen von Fehlern zu be- 
gehen, werden Irrtumswahrscheinlichkeiten genannt 28 . 

Die Aufgabe, eine adäquate Theorie des Tests statistischer Hypothesen 
aufzubauen, sieht sich also von vornherein mit zwei in konträre Richtungen 
weisenden Fehlertypen konfrontiert, so daß sie mit %wei Arten von Irrtums- 
wahrscheinlichkeiten operieren muß. Es liegt keineswegs auf der Hand, welche 
Strategie angesichts dieser Situation die beste ist. Der Vorschlag: „Minima- 
lisiere beide Irrtumswahrscheinlichkeiten! C£ käme, wie eine einfache Über- 
legung zeigt, einer unsinnigen Forderung gleich. (Für nähere Details vgl. 
Abschnitt 9.) 

(HI) Wenn man eine deterministische Hypothese überprüft, so gibt es 
nur zwei Möglichkeiten: Entweder steht das Beobachtungsergebnis mit 
der Hypothese im Einklang oder es widerspricht ihr. In der Popperschen 
Sprechweise ausgedrückt: die Hypothese ist falsifiziert oder sie ist nicht 
falsifiziert. Dieses epistemologische tertium non datur , wie man es nennen könnte, 
gilt im statistischen Fall nicht . Zwar kann man es, rein logisch gesehen, auch 
hier stets so einrichten, daß eine Hypothese im Licht vorliegender Daten ent- 
weder verworfen oder akzeptiert wird. (Gelegentlich wird sogar der Aus- 
druck „akzeptiert“ als „nicht verworfen“ definiert , was jedoch eher als eine 

28 Leider hat sich im Deutschen dieser Sprachgebrauch eingebürgert, wonach 
einerseits von Fehlertypen, andererseits von Irrtumswahrscheinlichkeiten die Rede 
ist. Ich halte diesen Sprachgebrauch nicht für sehr zweckmäßig. Es wäre besser 
gewesen, man hätte eine sprachliche Anpassung in der einen oder der anderen 
Richtung vorgenommen: also entweder weiterhin von Fehlertypen, dann aber 
auch von FÄrwahrscheinlichkeiten (und nicht Irrtumswahrscheinlichkeiten) 
zu sprechen, oder zwar von Irrtumswahrscheinlichkeiten, dann aber auch von 
Typ-I- bzw. Typ-II - Irrtümern (statt -Fehlern). Das letztere wäre vorzuziehen, weil 
dadurch zugleich der Einklang mit dem englischen Sprachgebrauch erzielt wäre, 
wo in beiden Fällen das Wort “error” verwendet wird. Um keine Mißverständ- 
nisse zu erzeugen, habe ich trotzdem den Standardgebrauch der deutschsprachigen 
statistischen Literatur übernommen. 
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unzweckmäßige Terminologie oder als eine Verlegenheitslösung anzusehen 
ist denn als eine sinnvolle Parallelisierung zum deterministischen Fall.) In 
den meisten Fällen wird es sich aber als die vernünftigste Methode er- 
weisen, nicht zwei, sondern drei Klassen von Beobachtungsresultaten zu 
unterscheiden: erstens solche, bei denen Verwerfung empfohlen wird; zwei- 
tens solche, bei denen Annahme empfohlen wird; und drittens solche , hei 
denen Urteilsenthaltung empfohlen wird. Zu dieser dritten Klasse werden jene 
Resultate gehören, die einerseits von dem, was man aufgrund der Hypothese 
erwarten sollte, nicht so stark ab weichen, um Verwerfung zu empfehlen, 
die aber andererseits mit der Hypothese auch nicht so gut im Einklang 
stehen, um Annahme zu rechtfertigen. So kann es sich denn im statistischen 
Fall ereignen, daß der gewissenhafte Beobachter auf die Frage, ob seine Be- 
funde die Hypothese bestätigen oder erschüttern, mit „Weiß nicht“ ant- 
worten muß. Urteilsenthaltung wird allerdings nur dann geboten sein, wenn 
eine Fortsetzung des Testverfahrens als ausgeschlossen erscheint. Im an- 
deren Fall wird die vernünftigste Reaktion die sein, die Fortsetzung der ex- 
perimentellen Untersuchungen z u empfehlen und deren Resultate abzuwarten . Diese 
Alternative führt direkt zur Problematik der sog. mehrstufigen oder se- 
quentiellen Tests. 

(IV) Testregeln bzw. Regeln der Annahme und der Verwerfung hängen 
in der Luft, wenn sie nicht durch Bezugnahme auf einen Begriff der Stützung 
oder Bestätigung formuliert sind: „Nur gut Bestätigtes (Gestütztes) soll 
akzeptiert, schlecht Bestätigtes (Erschüttertes) soll verworfen werden“. 
Zunächst könnte man meinen, daß in dieser Hinsicht kein wesentlicher 
Unterschied zwischen dem deterministischen und dem statistischen Fall 
bestehe, wie immer die genaue Explikation der eben zitierten Regel aus- 
sehen möge. Soweit es sich nur um den allgemeinen Zusammenhang von 
Bestätigung einerseits, Annahme- und Verwerfungsregeln andererseits 
handelt, ist dies auch richtig. Doch im Detail ergibt sich eine entscheidende 
Abweichung. 

Im deterministischen Fall ist es zumindest prinzipiell möglich, isolierte 
Hypothesen zu betrachten, ohne auf potentielle Konkurrenten dieser Hypo- 
thesen Bezug zu nehmen. Die in der Literatur diskutierten, qualitativen wie 
quantitativen Bestätigungsbegriffe sind fast alle dadurch charakterisiert, 
daß sie die Beurteilung einzelner Hypothesen aufgrund verfügbarer Daten 
gestatten, mögen diese Begriffe im übrigen ßeduktivistiscF oder indukti- 
vistisetf bzw. im quantitativen Fall probabilistisch oder nichtprobabilistisch sein. 

Im statistischen Fall besteht auch hier wieder ein ganz entscheidender 
Unterschied: Ein auf isolierte statistische Hypothesen bezogener Begriff der 
Bestätigung (Stützung, Bewährung) ist ohne Informationsgehalt, wie immer 
er konstruiert werden mag. Eine statistische Hypothese kann aufgrund ver- 
fügbarer Daten nur beurteilt werden im Vergleich z u anderen , mit ihr rivali- 
sierenden statistischen Alternativhypothesen. Diese wichtige Erkenntnis steht 
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hinter der Aufforderung von J. Neyman, daß man eine statistische Hypothese 
nicht verwerfen solle , solange man keine bessere anzubieten habe . 

Für den Augenblick begnügen wir uns damit, diesen Gedanken durch 
inhaltliche Plausibilitätsbetrachtung zu untermauern; die zwingende Motiva- 
tion müssen wir auf die spätere systematische Erörterung verschieben. 

Angenommen, wir wollten den Begriff der Likelihood einer Hypothese 
als Mittel zur Definition eines quantitativen Bestätigungsgrades isolierter 
statistischer Hypothesen benützen. Für eine konkrete Hypothese h möge sich 
aufgrund der vorliegenden empirischen Daten ein sehr geringer Bestäti- 
gungsgrad ergeben, etwa 1/100. Allein für sich genommen würde dieses Ergeb- 
nis Verwerfung nahelegen. Nehmen wir nun an, daß zu dieser Hypothese 
9900 einander ausschließende und auch mit h unverträgliche Alternativ- 
hypothesen in Frage kommen, deren jede aufgrund derselben Daten einen 
Bestätigungsgrad von 1/10000 besitzt. Diese metatheoretische Feststellung 
über die Rivalen von h führt zu der Einsicht, daß h die bei weitem bestbe- 
stätigte Hypothese darstellt und daß daher ihre Verwerfung zugunsten 
einer bestimmten anderen Hypothese unvernünftig wäre. 

Abermals zeigt sich hier ein wichtiger Unterschied zwischen dem deter- 
ministischen und dem statistischen Fall. Falsifizierte deterministische Ge- 
setzeshypothesen sind zu verwerfen, ganz gleichgültig, ob man brauchbare 
Alternativen zur Verfügung hat oder nicht. Da es im statistischen Fall keine 
Falsifikation gibt, ist es hier für den Aufbau einer adäquaten Bestätigungs- 
theorie unvermeidlich, auf Alternativhypothesen , die bereits %ur Verfügung 
stehen müssen , Betrug zu nehmen . 

(V) Eine weitere Komplikation tritt vermutlich hinzu. Die bisherigen 
provisorischen Überlegungen führten zu der vorläufigen Mutmaßung, daß 
ein adäquater Bestätigungsbegriff ein vierstelliger komparativer Begriff sein 
muß, der nicht nur auf eine ,zur Diskussion gestellte 6 isolierte Hypothese h 
und 5 verfügbare Erfahrungsdaten 6 , sondern außerdem explizit auf vorausge- 
setzte Oberhypothesen und mit h rivalisierende Alternativhypothesen Bezug nimmt. 
Wenn es um Annahme und Verwerfung geht, genügt selbst eine derartige 
komplexe — im Augenblick als adäquat vorausgesetzte — Relation nicht. 
Eine Testtheorie muß hinzutreten. Nun kann ein Testkriterium nicht nur 
mehr oder weniger scharf sein. Viel wichtiger ist es, nicht zu übersehen, daß 
sich miteinander unverträgliche Testkriterien formulieren lassen, die alle irgend- 
wie den Anspruch auf Vernünftigkeit erheben können. Es liegt daher nahe, 
bei der Formulierung von Annahme- und Verwerfungsregeln die Relati- 
vierung auf eine Testtheorie T ausdrücklich hinzuzufügen. 

Dies wird allerdings prima facie kaum jemandem einleuchten. Eher wird 
man einen derartigen Gedanken zunächst für absurd halten. Ist es denn nicht, 
so wird man fragen, Aufgabe einer logischen Analyse des Testbegriffs, die 
adäquate Testregel {die adäquate Testtheorie) ausfindig zu machen ? Nega- 
tiv formuliert : Muß die erwähnte Relativierung nicht notwendig zu einem 
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subjektiven Präferenzspiel entarten, da man immer eine Testtheorie finden 
kann, die das zu verwerfen verlangt, was man verwerfen will, und das nicht 
zu verwerfen, was man beibehalten möchte ? Aber so ist die Relativierung 
auf eine Testtheorie T auch nicht gemeint. Sicherlich gibt es Testtheorien, 
die unter allen Umständen inadäquat sind. Sie sind aus dem zulässigen Wert- 
bereich der Variablen „T“ zu eliminieren. Das Problem ist vielmehr, ob 
man über die Elimination solcher Theorien hinausgehen kann und die 
schlechthin adäquate Theorie zu finden auch nur hoffen darf. Ich vermute, 
daß einer solchen Suche kein Erfolg beschieden sein wird, weil der Begriff 
der optimalen Testtheorie von der Zwecksetzung sowie von den Umständen 
abhängt. Die Suche nach der schlechthin adäquaten Theorie ist die Suche nach 
derjenigen Theorie, die unter allen möglichen Umständen und relativ für 
alle möglichen Zwecke optimal ist. Die dabei vorausgesetzte Existenz- 
hypothese, daß es eine derartige Theorie überhaupt gibt, ist vermutlich nur 
ein Wunschtraum, dem sich Vertreter miteinander konkurrierender Test- 
theorien gern hingeben. Das beste, was man vielleicht einmal erreichen wird, 
ist vermutlich dies, eine systematische Übersicht über Typen von Zielsetzun- 
gen und von Umständen zu gewinnen, für welche sich eine bestimmte Test- 
theorie als optimal auszeichnen läßt. Doch ist nicht einmal dies sicher, daß 
sich dieses bescheidenere Ziel realisieren lassen wird. 

l.e Zusammenfassung und Ausblick, Ich habe diesem ersten Abschnitt 
den metaphorischen Titel gegeben: Jenseits von Popper und Carnap c . 
Nochmals sei daran erinnert, daß diese Wendung nicht polemisch gemeint 
war, sondern daß die in l.a und l.d enthaltenen Ausführungen der Ge- 
winnung eines vorbereitenden Verständnisses dienen sollten. Es erscheint 
als zweckmäßig, nochmals in wenigen Worten die Hauptpunkte der Be- 
gründung für diese doppelte Abgrenzung zusammenzufassen. 

Die Abgrenzung vom Carnapschen Projekt basiert auf zwei vollkommen 
verschiedenen Thesen, die man deshalb auseinanderhalten sollte, weil die 
erste vermutlich die Vertreter einer induktiven Logik nicht überzeugen 
dürfte, während die zweite These eher geeignet ist, allgemein zu überzeu- 
gen. Die erste These ist identisch mit der in diesem Buch vertretenen Auf- 
fassung, daß man Carnäps Untersuchungen als Beiträge zur rationalen Ent- 
scheidungstheorie, dagegen nicht als Grundlegung einer induktiven Logik oder 
einer Theorie der Bestätigung deuten sollte. Einer der Gründe dafür ist der, 
daß Carnaps Schlüsselbegriff eine Wahrscheinlichkeit im technischen Sinn 
des Wortes ist, während ein adäquater theoretischer Bestätigungsbegriff 
vermutlich weder im deterministischen noch im statistischen Fall probabi- 
listische Struktur hat, sofern Gesetzeshypothesen das Objekt der theoreti- 
schen Beurteilung bilden. Die zweite These besagt erstens, daß eine Bestäti- 
gungstheorie im statistischen Fall außer auf 5 Beobachtungswissen c auf 
Hypothesen Bezug nehmen muß, die mit der zu beurteilenden Hypothese kon- 
kurrieren (,eliminativer c statt 5 enumerativer c Charakter); und zweitens daß 
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eine solche Theorie in das statistische Datum auch Hintergrundwissen in der 
Gestalt akzeptierter Oberhypothesen einzubeziehen hat. 

Die beiden letzten Gesichtspunkte sind sicherlich implizit im Werk 
Poppers enthalten. Deshalb wurde auch eingangs betont, daß die folgenden 
Überlegungen 5 dem Geist nach* eher der Popperschen als der Carnapschen 
Denkweise entsprechen. Trotzdem wäre es ein gekünsteltes Unterfangen, 
zu versuchen, die Poppersche Theorie der Bewährung auf die Beurteilung 
statistischer Hypothesen auszudehnen. Dazu ist diese Bewährungstheorie 
in allzu starkem Maße auf Hypothesen von deterministischem Typ ausge- 
richtet. In der Abgrenzung vom Popperschen Projekt erschien es daher als 
erforderlich, besonders auf zwei Punkte hinzuweisen. Erstens darauf, daß 
ein Begriff der vernünftigen Verwerfung statistischer Hypothesen, wie im- 
mer er expliziert werden mag, zu einem prinzipiell provisorischen Verwer- 
fungsbegriff führen muß — „prinzipiell provisorisch“ in dem Sinn, daß 
es sich als vernünftig erweisen kann, auch ohne Revision der empirischen 
Daten die Verwerfung rückgängig zu machen. Zweitens auf den Punkt, daß 
im statistischen Fall keinerlei Asymmetrie zwischen Verifizierbarkeit und 
Falsifizierbarkeit besteht, weshalb z m i duale Irrtumsmöglichkeiten gleich ernst 
genommen iverden müssen: der Typ-II-Fehler (irrtümliche Annahme von 
Falschem) und der Typ-I-Fehler (irrtümliche Verwerfung von Rich- 
tigem). 

Wir beschließen diesen ersten Abschnitt mit einem kurzen Ausblick, der 
hoffentlich dazu beitragen wird, daß der Leser bei der Beschäftigung mit 
dieser nicht immer leichten Materie den roten Faden nicht verliert. 

Die wichtigsten Begriffe der Theorie des statistischen Schließens sind die 
Begriffe der Unabhängigkeit , der Zufälligkeit (randomness) und der statisti- 
schen Wahrscheinlichkeit . Da “Zufälligkeit” doppeldeutig ist, handelt es sich 
im ganzen um vier Begriffe. Es soll versucht werden, die drei ersten Be- 
griffe auf den letzten zurückzuführen. Dies hat zur Folge, daß es keine spe- 
ziellen erkenntnistheoretischen Probleme der Beurteilung der Unabhängig- 
keit von Ereignissen und von Experimenten gibt, ebenso kein eigenes , Pro- 
blem der Zufälligkeit. Alle Fragen, die im Zusammenhang mit diesen Be- 
griffen auftreten, werden auf Probleme der Beurteilung statistischer Wahr- 
scheinlichkeitshypothesen zurückgeführt. 

Der Begriff der statistischen Wahrscheinlichkeit soll als ein theoretischer 
Begriff verstanden werden, genauer: als eine nicht explizit definierbare 
theoretische Disposition physikalischer Systeme. Wie wir schon bemerkten, 'war 
vermutlich Braithwaite der erste, welcher eine solche Deutung ausdrück- 
lich erwogen hat 29 . Unabhängig von ihm sind auch andere Denker, insbe- 

29 Wie wir in 1 . c allerdings gesehen haben, schreibt Braithwaite eine derartige 
Auffassung bereits R. A. Fisher zu. 
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sondere Popper und Carnap, zu ähnlichen Auffassungen gelangt 30 . Einer 
Untersuchung des statistischen Schließens wurde dieser Gedanke erstmals 
von Hacking zugrundegelegt 31 . Die Interpretation der statistischen Wahrschein- 
lichkeit als einer theoretischen Disposition steht in deutlichem Konflikt %u allen reduk- 
tionistischen Versuchen , den Begriff der statistischen Wahrscheinlichkeit mittels be- 
reits verfügbarer logischer und empirischer Begriffe %u definieren. Auch der Streit 
zwischen den , Objektivsten 4 und 5 Subjektivisten 4 vollzog sich fast aus- 
schließlich im Rahmen des Reduktionismus als einer von beiden Seiten still- 
schweigend anerkannten wissenschaftstheoretischen Oberhypothese. Da 
wir diese Oberhypothese nicht akzeptieren, müßten wir eigentlich sagen, 
daß der Gegensatz zwischen den Häufigkeitstheoretikern und den Sub- 
jektivisten ein Pseudogegensatz sei. 

Ganz so einfach verhält es sich aber doch nicht. Erstens nämlich liegt 
auch der theoretischen Deutung die Vorstellung zugrunde, daß es sich da- 
bei um eine Präzisierung des vorexplikativen Begriffs der Relativen Häufig- 
keit auf lange Sicht 4 handle. Wenn man daher nicht das Explikationsver- 
fahren, sondern die intuitive Ausgangsbasis als tertium comparationis 
wählt, muß auch die theoretische Deutung der statistischen Wahrschein- 
lichkeit als eine Variante des Objektivismus betrachtet werden. Zweitens 
sollte man sowohl philosophische als auch einzelwissenschaftliche reduk- 
tionistische Thesen immer ernst nehmen, ungeachtet dessen, daß die philo- 
sophischen Reduktionismen, im Gegensatz zu fachwissenschaftlichen, fast 
alle gescheitert sind 32 . Mit der objektivistischen Variante brauchen wir uns 
allerdings nicht mehr zu beschäftigen. Denn diese fällt mit der Limestheorie 
zusammen, von der wir in 1 . b erkennen mußten, daß sie unhaltbar ist. Da- 
gegen werden wir in Abschnitt 12 die personalistische Variante des Reduk- 
tionismus ernsthaft in Erwägung ziehen. Es wird sich allerdings heraus- 
stellen, daß das Für und Wider, welches man zu dieser Theorie Vorbringen 
kann, für eine endgültige Entscheidung noch nicht ausreichen dürfte. 

30 Bezüglich Poppers Konzeption vgl. [Propensity 1] und [Propensity 2] ; 
hinsichtlich der Auffassung von Carnap vgl. meine Einleitung zu [Induktive 
Logik]. 

31 Leider erweckt Hacking durch seine Formulierungen gelegentlich, ins- 
besondere bei der Auseinandersetzung mit dem Subjektivismus, den irrigen Ein- 
druck, als habe er den Begriff der statistischen Wahrscheinlichkeit definiert. 

32 Spezifisch philosophische reduktionistische Thesen sind: die nominalistische 
These von der Übersetzbarkeit aller sinnvollen Aussagen in eine nominalistische 
Sprache; die phänomenalistische These von der Zurückführbarkeit aller empirischen 
Aussagen auf die Sätze einer phänomenalistischen Grundsprache; die konstruk- 
tivistische These , wonach die gesamte Mathematik auf das konstruktiv Begründbare 
zurückführbar sei. Spezifisch einzelwissenschaftliche Reduktionismen betreffen 
z. B. die Zurückführbarkeit der Mechanik der festen Körper auf die Partikel- 
mechanik, die Zurückführbarkeit der Wärmelehre auf die Mechanik, die Reduzier- 
barkeit der Chemie auf Physik, der Psychologie auf die Physiologie, der Soziologie 
auf die Psychologie usw\ 
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Diese Grundsatzfrage wird uns aber vorläufig nicht weiter beschäftigen. 
Unser methodisches Vorgehen in den nächsten Abschnitten wird vielmehr 
folgendes sein: Zunächst wird im Anschluß an Hacking eine abgeschwächte 
Form eines auf Koopman zurückgehenden Systems einer komparativen 
Stütyungslogik entwickelt. Da diese Logik sehr schwach ist und für den Auf- 
bau einer Theorie der Stützung statistischer Hypothesen nicht ausreichen 
würde, wird ein weiterer quantitativer Begriff eingeführt: der auf R. A. 
Fisher zurückgehende Begriff der Likelihood. Sowohl für die Theorie der 
Stützung als auch für die Testtheorie wird sich dieser Begriff als von funda- 
mentaler Bedeutung erweisen. Die für diesen Begriff aufgestellte Likeli- 
hood- Regel wird eine Abschwächung dessen darstellen, was Hacking “law 
of likelihood” nennt. Um terminologische Mißverständnisse auszuschließen, 
sei bereits jetzt daraufhingewiesen, daß diese Regel weder mit dem Prinzip 
der maximum likelihood von Fisher noch mit dem von Savage formu- 
lierten Likelihood- Prinzip der subjektivistischen Theorie verwechselt 
werden darf. Im Definiens des Likelihoodbegriffs kommt der Wahrschein- 
lichkeitsbegriff vor. Trotzdem ist die Likelihood keine Wahrscheinlichkeit ; denn 
sie erfüllt nicht die Kolmogoroff- Axiome. Außerdem soll die Likelihood, 
obwohl selbst ein quantitativer Begriff, nur für die Definition eines kom- 
parativen Begriffs der Stützung und auch nur für die Formulierung einer 
komparativen Testregel benützt werden. 

2. Präludium: Der intuitive Hintergrund 

2.a Statistische Wahrscheinlichkeiten betreffen Merkmale von Teilen 
der Realität, deren Vorliegen wir mittels Häufigkeitsauszählungen über- 
prüfen. Es erschiene daher prima facie plausibel, den Begriff der statisti- 
schen Wahrscheinlichkeit durch Definition auf den der relativen Häufigkeit 
zurückzuführen. Da wir relative Häufigkeiten empirisch feststellen können, 
wäre damit dem Wunsch der Empiristen Genüge getan, bei der Definition 
physikalischer Begriffe außer logisch-mathematischen Begriffen nur solche 
zu benützen, die sich auf prinzipiell Beobachtbares beziehen. Den intuitiven 
Ausgangspunkt bilden dabei zwei Feststellungen : erstens daß die statistische 
Wahrscheinlichkeit nicht mit den tatsächlich ermittelten relativen Häufig- 
keiten identifiziert werden kann; denn diese variieren von Beobachtung zu 
Beobachtung; zweitens daß trotz dieser Variation von Fall zu Fall die rela- 
tiven Häufigkeiten eine bemerkenswerte Konstanz aufweisen. 

So kam es zur Limesdefinition der statistischen Wahrscheinlichkeit durch v. 
Mises und Reichenbach. Diese Definition erwies sich als defekt. Wie be- 
reits in Abschnitt 1 hervorgehoben, lautet der entscheidende Einwand nicht, 
daß der Begriff des Grenzwertes auf Zufallsfolgen nicht anwendbar sei — 
wie puristische Verfechter des Konstruktivismus behaupten — , auch nicht, 
daß der Gedanke einer unbegrenzten Wiederholung eines Ereignistyps un- 
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ter gleichbleibenden Bedingungen auf einer metaphysischen Fiktion be- 
ruhe — wie antimetaphysische Puristen meinen. Er besteht in der geschil- 
derten Verwechslung von praktischer Sicherheit mit logischer Notwendigkeit . 
Daneben stießen wir auf einen weiteren ernst zu nehmenden Einwand, der 
die Frage der Nachprüfbarkeit statistischer Hypothesen betrifft: Wir kön- 
nen immer nur endliche Folgen von relativen Häufigkeiten beobachten; eine 
derartige Beobachtung aber ist stets mit einer beliebigen Annahme über den 
Grenzwert verträglich. Dieses Argument beweist als solches nicht, daß die 
Limesdefinition auf einer falschen Vorstellung beruht, sondern bloß, daß 
zwischen statistischer Wahrscheinlichkeit und beobachteter relativer Häufig- 
keit ein komplizierterer und indirekterer Zusammenhang besteht, als die 
Vertreter der Limesdefinition annehmen. Der Zusammenhang muß so 
geartet sein, daß statistische Hypothesen empirisch nachprüfbar werden. Und 
diesen Zusammenhang gilt es ans Tageslicht zu fördern. Die Limesdefinition 
schließt die Nachprüfung aus: Jede Beobachtung ist mit jeder Hypothese 
verträglich. 

Die folgende Modifikation bietet sich an : Das Überprüfungsverfahren, 
welches sich auf Häufigkeitsfeststellungen stützt, muß Eingang in die Be- 
deutung des Begriffes der statistischen Wahrscheinlichkeit finden. Dann 
aber darf dieser Begriff nicht in starrer Weise und unabhängig von jedem 
Überprüfungsverfahren definiert werden, wie dies in der Limestheorie ge- 
schieht. Braithwaite hatte daher versucht, diesen Begriff mittels geeigneter 
Verwerfungsregeln zu präzisieren (statistisches Analogon zur deduktivisti- 
schen Falsifikationstheorie Poppers). Auch Braithwaites Versuch schlug 
jedoch fehl. Sein Verwerfungsprinzip blieb abhängig von einem Parameter 
und machte damit den Begriff der statistischen Wahrscheinlichkeit unend- 
lich vieldeutig. 

Die Modifikation ist in anderer Richtung zu suchen. Annahme und Ver- 
werfung sind zu grobe Begriffe, als daß sich mit ihrer Hilfe die Natur der 
statistischen Wahrscheinlichkeit klären ließe. Der Begriff der Stützung einer 
Hypothese ist nach der Auffassung Hackings ein besserer Kandidat. Dieser 
Begriff stellt uns nicht wie die ersten beiden Begriffe vor ein radikales Ent- 
weder-Oder, da er als komparativer Begriff „besser gestützt als“ eingeführt 
werden kann. Vorsichtiger Gebrauch dieses Begriffs könnte die gewünschte 
Präzisierung ermöglichen, ohne daß sich der Nachteil des Braithwaiteschen 
Verfahrens einstellte. Dies jedenfalls ist die Hoffnung von Hacking. Wie 
bei Braithwaite wird auch bei ihm der Begriff der statistischen Wahrschein- 
lichkeit als theoretische Größe eingeführt. Die erste partielle Charakteri- 
sierung erfährt dieser Begriff durch die Kolmogoroff- Axiome. Der dabei be- 
nützte begriffliche Hintergrund wird nur inhaltlich geschildert. Die weitere 
Präzisierung erfolgt durch zusätzliche Schritte. Durch eine Logik der 
Stützung, welche Hacking der abstrakten Wahrscheinlichkeitstheorie super- 
poniert, wird die Bedeutung des Begriffs eingeengt. Zum Unterschied von 
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Carnaps Induktiver Logik ist diese Stützungslogik keine quantitative, son- 
dern eine viel schwächere komparative. Diese Logik bildet im Grunde nur 
ein formales Hilfsmittel für spätere Ableitungen. Das Schwergewicht liegt 
auf etwas Drittem: der Likelihood- Regel , welche Aussagen darüber ge- 
statten soll, wann bei gegebenen Daten eine einfache statistische Hypothese 
besser gestützt ist als eine andere. In gewissen Fällen gelingt dann sogar eine 
Verschärfung zu quantitativen Aussagen über den Stützungsgrad. Dazu ist 
es nicht erforderlich, eine quantitative Stützungstheorie im Carnap sehen 
Sinn aufzubauen. Vielmehr genügt die Hinzufügung zweier weiterer Prin- 
zipien (Rekonstruktion des Fiduzialargumentes von R. A. Fisher). 

Wir sprachen oben von Hackings Hoffnung. Diese Hoffnung wird sich 
nicht und kann sich nicht erfüllen — leider. Die genauen Gründe dafür werden 
erst an relativ später Stelle, nämlich im Rahmen einer Diskussion der Pro- 
pensity-Theorie der statistischen Wahrscheinlichkeit in 12. b, zur Sprache 
kommen. (Vgl. insbesondere die dort genau formulierte Forderung von 
Suppes nach einer qualitativen Theorie der statistischen Wahrscheinlichkeit, 
die stark genug ist, um ein Repräsentationstheorem beweisen zu können.) 
Wenn wir trotzdem vorläufig weitgehend an das Vorgehen Hackings an- 
knüpfen, so geschieht dies aus folgendem Grund: Auch die kritischen Er- 
örterungen in Abschn. 12 werden uns in der Überzeugung bestärken, daß 
die statistische Wahrscheinlichkeit als eine theoretische Größe aufzufassen ist. 
Wenn man als Wissenschaftstheoretiker zu der Überzeugung gelangt, daß 
ein Begriff, z. B. eine physikalische Größe, als theoretischer Begriff zu inter- 
pretieren ist, so erweist es sich stets als zweckmäßig, sich genau darüber 
orientieren , wie in der fraglichen Wissenschaft 9 mit diesem Begriff umgegangetf ivird. 
So wollen auch wir verfahren. Nur daß wir es nicht mit physikalischen 
Theorien, sondern mit Theorien der Statistik zu tun haben. Nun hat aber 
Hac king vermutlich die bisher subtilste philosophische Analyse der moder- 
nen Statistik geliefert. Die Anknüpfung an ihn erfolgt daher unter Vor- 
wegnahme der künftigen Bekräftigung einer Grundüberzeugung. 

2.b Die Grund vor Stellung, von der im folgenden ausgegangen wird, 
knüpft nicht an die personalistische, sondern an die objektivistische Auf- 
fassung an. Die statistische Wahrscheinlichkeit, die von nun an Chance 
heißen soll, wird als eine dispositioneile Eigenschaft physikalischer Systeme 
aufgefaßt, die nicht in der Beobachtungssprache charakterisierbar ist und 
die daher auch als theoretische Größe bezeichnet werden soll. (Für die Gründe 
dafür, Dispositionen als theoretische Begriffe aufzufassen, vgl. Bd. II, 
Theorie und Erfahrung , Kap. IV, 1 ; hier treten zusätzlich die in IV, 2 ange- 
führten Gründe hinzu, da es sich außerdem um einen quantitativen Begriff 
handelt.) Die Eigenschaft muß so konstruiert werden, daß die relative 
Häufigkeit auf lange Sicht eine , gesetzmäßige Folge' dieser Eigenschaft ist. 
Deshalb werden wir größerer Anschaulichkeit halber gelegentlich doch 
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wieder von der relativen Häufigkeit auf lange Sicht als dem Explikandum des 
Begriffs der Chance sprechen. 

Wenn soeben die Chance eine Eigenschaft genannt worden ist, so ist da- 
bei die folgende Vorsichtsmaßregel zu beachten: Sowohl das Explikandum 
als auch das Explikat sind Quantitäten oder Größen. Wenn man solche 
Größen Eigenschaften nennt, so ist dies eine elliptische Redeweise. Man 
spricht zwar z. B. von der Länge oder vom Volumen als einer Eigenschaft. 
Aber natürlich ist nicht die Länge schlechthin eine Eigenschaft eines Eisen- 
stabes, sondern dieser Eisenstab hat eine gan % bestimmte Länge, nämlich 
87 cm; dieser Holzwürfel hat ein gam^ bestimmtes Volumen , nämlich 9/10 m 3 
usw. Analog kann man nicht die statistische Wahrscheinlichkeit oder Chance 
schlechthin als eine Eigenschaft von 5 irgendetwas in der Weit* betrachten, 
sondern nur eine gan % bestimmte Chance. 

Daß die Eigenschaft Chance gegenüber anderen Quantitäten Besonder- 
heiten aufweist, ist bereits mehrmals deutlich geworden, vor allem in der 
Feststellung, daß statistische Hypothesen weder verifizierbar noch falsifizier- 
bar sind. Man kann eine noch darüber hinausgehende Feststellung treffen: 
Wenn die Messung eines Eisenstabes von 1 m Länge zu einem Meßergebnis 
von 2 m oder 50 cm führt, so wird man sagen, daß entweder ganz abnorme 
Bedingungen Vorgelegen haben müssen oder daß ein phantastischer Irrtum 
bei der Meßoperation Vorgelegen haben muß. Wenn wir hingegen anneh- 
men, daß die Chance, mit zwei symmetrisch gebauten Würfeln gleichzeitig 
zwei Dreier zu werfen, 1/36 beträgt, so ruft es noch kein Befremden hervor, 
wenn in einer längeren Beobachtungsreihe die relative Häufigkeit gleich- 
zeitiger Dreier würfe 1/18 beträgt: Weder braucht man anzunehmen, daß 
man falsch beobachtet habe, noch, daß abnorme Bedingungen Vorgelegen 
haben, noch, daß die Chance selbst sich mittlerweile geändert habe. 

Prinzipiell allerdings ist die Änderung der Chance etwas, das durchaus 
ernst zu nehmen ist. Hier zeigt sich ein neuer Vorteil der Sprechweise, die 
Chance eine Disposition zu nennen: Eine dispositioneile Eigenschaft braucht 
nichts Statisches zu sein; sie kann einer Dynamik unterworfen sein, d. h. 
sie kann sich ändern . Die Chance, daß ein Einwohner Münchens während der 
Grippeepidemie vom Dezember 1969 angesteckt wurde, änderte sich wäh- 
rend der Dauer dieser Epidemie von Tag zu Tag. Diese Chance war eine 
Funktion der zu einem bestimmten Zeitpunkt erkrankten Personen. Na- 
türlich treten hier sofort grundlegende Fragen auf, wie z. B. : Wann ist die 
Abweichung von beobachteter relativer Häufigkeit und hypothetisch ange- 
nommener Chance ein Symptom dafür, daß eine andere Chance vorliegt, 
als wir annahmen ? Wann sind die beobachteten relativen Häufigkeiten An- 
zeichen dafür, daß die Chance nicht gleich bleibt, sondern sich ändert ? Wie 
lange muß denn die Beobachtungsreihe sein bzw. wieviele längere Beob- 
achtungsreihen müssen vorliegen, damit man einen Schluß auf die zu- 
grundeliegende Chance ziehen kann ? etc. Die Untersuchung der Grund- 
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lagen des statistischen Schließern stellt sich die Aufgabe, solche und ähn- 
liche Fragen zu beantworten. 

Für das Verhältnis zwischen der Disposition Chance und der beobacht- 
baren relativen Häufigkeit auf lange Sicht mag vorläufig als Illustration die Be- 
ziehung zwischen der Disposition der Löslichkeit in Wasser dienen, die einem 
Zuckerstück zukommt, und dem an diesem Zuckerstück beobachtbaren 
Vorgang, sich in Wasser aufzulösen, nachdem es ins Wasser gegeben wor- 
den ist. Die Löslichkeit in Wasser ist nicht identisch mit dem Vorgang des 
Sichauflösens. Letzterer ist nur eine Manifestation der Disposition bei Vor- 
liegen geeigneter Umstände. Analog sind die beobachtbaren relativen 
Häufigkeiten auf lange Sicht nicht identisch mit der statistischen Wahr- 
scheinlichkeit, sondern Manifestationen oder Auswirkungen dieser dispo- 
sitioneilen Eigenschaft. Freilich : Chance ist eine in viel höherem Grad theo- 
retische Disposition als Wasserlöslichkeit. Und darin dürfte auch eine Wurzel 
für viele Meinungsverschiedenheiten liegen: Je weiter man sich mit einem 
Begriff von der Beobachtungsebene entfernt, desto indirekter und unsiche- 
rer sind die Methoden, um festzustellen, ob der Begriff zutrifft oder nicht. 
Darüber, ob Wasserlöslichkeit in keinem konkreten Fall vorliegt, kann man 
sich durch einige Experimente rasch einigen. Darüber, wie man das Vor- 
liegen einer bestimmten Chance feststellt, gehen die Meinung noch aus- 
einander. (Ja es gibt sogar einen Streit darüber, ob es überhaupt einen Sinn 
habe, von dieser theoretischen Disposition zu reden. Doch davon soll hier 
noch abstrahiert werden.) 

Drei grundlegende Begriffe sind die folgenden: Experimentelle Einord- 
nung (kurz: Anordnung Versuchstyp und Ergebnis. Sie werden benötigt, um 
den in dem Illustrationsbeispiel angedeuteten Gedanken durchzuführen. 
Zunächst muß die Frage beantwortet werden: Was ist es denn, dem die 
Chance genannte Disposition zugeschrieben wird? Im Illustrationsbeispiel 
handelt es sich um ein physisches Objekt (dieses Stück Zucker). Es wäre 
ein zu primitives Vorgehen, wollte man analog die Chance für das Ein- 
treffen der einzelnen Augenzahlen diesem konkreten Würfel, oder die 
Chance für das Eintreffen von Kopf oder Schrift dieser bestimmten Münze 
zuschreiben. In den beiden letzten Fällen muß vielmehr auch noch die Wurf- 
anordnung mit berücksichtigt werden. Und in diese wiederum ist auch die 
Umgebung mit einzubeziehen. Um dies rasch einzusehen, betrachte manWürfe 
mit einem sog. verfälschten Würfel, bei dem der Schwerpunkt nicht mit dem 
Mittelpunkt zusammenfällt, sondern durch Einbau eines Gewichtes so ver- 
lagert wurde, daß das Eintreffen der Augenzahl 6 begünstigt wird. Wie 
stark sich diese Begünstigung auswirkt, hängt offenbar, wie Popper einmal 
hervorgehoben hat, außer vom Würfel selbst auch von der Struktur des um- 
gebenden Gravitationsfeldes ab. Durch eine Verzerrung dieses Gravita- 
tionsfeldes kann die Begünstigung entweder verstärkt oder abgeschwächt 
werden. 
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Wir müssen also sagen, daß die Chance, eine Eins, Zwei, . . . , Sechs 
zu werfen, eine dispositioneile Eigenschaft des Würfels plus der Wurfanord- 
nung ist. Wir kürzen dies dadurch ab, daß wir von einer Eigenschaft der An- 
ordnung sprechen. 

Es bestehen zwei weitere wesentliche Unterschiede zum Löslichkeits- 
beispiel. Daß sich etwas im Wasser auflöst, ist ein beobachtbarer qualitativer 
Vorgang. Beobachtete relative Häufigkeiten hingegen sind Quantitäten. In 
dieser Hinsicht ist der Sachverhalt besser vergleichbar mit der beobachteten 
Länge eines Eisenstabes. Entscheidender ist der folgende Unterschied: 
„Relative Häufigkeit auf lange Sicht“ ist ein Ausdruck, dem eine unbeheb- 
bare Vagheit anhaftet, wenn man sich entschließt, zum Unterschied von den 
Limestheoretikern der statistischen Wahrscheinlichkeit auf die Einführung 
des GrenzwertbegrifFs zu verzichten. Denn wenn ich von n Versuchen zu 
n+ 1 Versuchen übergehe, dann muß sich — außer in extremen Grenzfällen 
— die Häufigkeitsverteilung ändern: Die absolute Häufigkeit eines mög- 
lichen Ergebnisses nimmt um 1 zu, während die absoluten Häufigkeiten der 
übrigen möglichen Ergebnisse gleich bleiben. Dies hat die folgende Kon- 
sequenz : Die Wendung „relative Häufigkeit auf lange Sicht“ darf zwar in 
der intuitiven Erläuterung verwendet werden, aber auch nur in dieser. In 
den für den Begriff der Chance aufzustellenden Postulaten darf diese Wen- 
dung nicht mehr Vorkommen. Das ist eine notwendige Bedingung 
dafür, zu einer präzisen Theorie der statistischen Wahrscheinlichkeit und 
der Stützung statistischer Hypothesen zu gelangen. 

Eben war bereits von möglichen Ergebnissen die Rede. Dies war eine 
Voreiligkeit, die wir gleich wieder zurücknehmen müssen. Durch eine An- 
ordnung X sind nämlich die möglichen Ergebnisse noch nicht festgelegt. 
Dies geschieht erst, wenn an X Versuche vorgenommen werden. Hier ist 
nun folgendes zu beachten: An ein und derselben Anordnung können Ver- 
suche von verschiedenem Typus gemacht werden. Erst dadurch ist die Klasse 
der möglichen Ergebnisse festgelegt. Wir geben einige elementare Würfel- 
beispiele. In allen diesen Beispielen sei die Anordnung X dieselbe (d. h. der 
Würfel sowie die Wurfanordnung sollen vom einen Fall zum anderen in 
keiner Weise variieren). Der Versuchstyp ist dagegen jedesmal ein anderer 33 : 

(1) man würfle einmal und beobachte das Ergebnis : 6 mögliche Resul- 
tate; 

(2) man würfle viermal und beobachte, wie oft eine 3 vorkommt: 
5 mögliche Resultate ; 

(3) man würfle wieder viermal, beobachte aber diesmal alle Zahlen sowie 
ihre Anordnung: 6 4 = 1296 mögliche Resultate; 

33 Wenn der Würfel auf einer Kante oder Ecke stehen bleibt, so betrachte man 
das Experiment niemals als vollzogen und wiederhole den Versuch. 
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(4) man würfle einmal und betrachte das Experiment als nicht vollzogen, 
wenn eine 2 oder eine 5 herauskommt. In den übrigen vier Fällen 
würfle man noch ein zweites Mal und beobachte das Ergebnis. 

Hier haben wir es mit einem sog. bedingten Versuch zu tun: sein 
Ergebnis hängt davon ab, ob ein anderer Versuch ein bestimmtes 
Ergebnis hat. 

Die Klasse der möglichen Ergebnisse ist also in doppelter Weise zu rela- 
tivieren: Erstens auf eine Anordnung X und zweitens auf einen Versuchs- 
typ T (genauer eigentlich: T x ) an X . Ein konkreter Versuch des Typs T 
heiße Vj. Häufig wird von Versuchen auch noch gefordert, daß sie Zufalls - 
experimente seien. Diese Forderung wird hier nicht erhoben. Es soll näm- 
lich später versucht werden, den Zufallsbegriff auf andere Begriffe zurück- 
zuführen. 

Wir haben damit bereits den Anschluß an die abstrakte Wahrscheinlich- 
keitstheorie gewonnen. Allgemein muß folgendes angenommen werden: 
Jeder Versuch vom Typ T an X hat genau ein mögliches Resultat aus einer 
(endlichen oder unendlichen) Klasse Q möglicher Resultate, dem soge- 
nannten Stichprobenraum. Gewisse Mengen solcher Resultate bilden die 
Ereignisse, also die Elemente des Ereigniskörpers 21 über ß. ß repräsen- 
tiert das sichere Ereignis. Die Einerklassen der möglichen Resultate gehören 
alle zum Ereigniskörper 2t ; sie bilden die elementaren Ereignisse. Im dis- 
kreten (endlichen oder abzählbar unendlichen) Fall besteht der Ereignis- 
körper gewöhnlich aus der Potenzmenge P (, ß ) des Stichprobenraumes. Im 
überabzählbaren Fall wird er in der in Teil 0, D geschilderten Weise aus der 
Klasse meßbarer Ereignisse gebildet. (Die Meßbarkeit besteht relativ auf 
ein vorgegebenes äußeres Maß.) Wir sagen, daß ein Versuch (vom Typ T 
an der Anordnung X) %um Ereignis E geführt habe, wenn das Resultat des 
Versuchs ein Element der Klasse E ist. 

Als nächstes werde der Begriff der Chance eingeführt. Gegeben seien 
erstens eine Anordnung X , zweitens ein Versuchstyp T und drittens ein 
geeigneter Ereigniskörper 21 (über der Klasse ß der möglichen Ergebnisse 
von Versuchen IZ? an X). Die statistische Wahrscheinlichkeit oder Chance 
eines Ereignisses E> also eines Elementes E von 21, sei eine quantitative 
dispositionelle Eigenschaft W{E) der Anordnung X bezüglich T. Diese 
wahrscheinlichkeitstheoretische Charakterisierung von X bezüglich T kann 
vollständig oder partiell sein. Eine partielle Charakterisierung liegt vor, wenn 
die Chance nur für gewisse, aber nicht für alle Ereignisse aus 21 festliegt. 
Ein Grenzfall ist gegeben, wenn nur für ein elementares Ereignis die 
Chance bekannt ist. Wir sagen dann, daß nur eine elementare statistische 
Hypothese bekannt sei (z. B. : „die statistische Wahrscheinlichkeit (Chance), 
mit diesem Würfel eine 5 zu werfen, beträgt 0,18“). Eine vollständige Charak- 
terisierung liegt hingegen vor, wenn die Chancen für alle Ereignisse aus 21 
bekannt sind. Dafür genügt es im diskreten Fall zu wissen, wie die Chancen 
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unter die verschiedenen möglichen Resultate (genauer: die Einerklassen 
dieser Resultate, also die elementaren Ereignisse) verteilt sind. (Im Würfel- 
beispiel: die sechs Chancen für das Eintreten einer 1, . . . , 6.) Im konti- 
nuierlichen Fall ist es erforderlich, den Verlauf der Wahrscheinlichkeits- 
dichtefunktion bzw. der kumulativen Verteilungsfunktion zu kennen. 

Statistische Hypothesen sollen im allgemeinen als derartige Verteilungshypo- 
thesen betrachtet mrden. Eine Verteilungshypothese kann man anschaulich 
folgendermaßen deuten: Im endlichen Fall bildet sie eine Konjunktion von 
endlich vielen elementaren statistischen Hypothesen (im Würfelbeispiel also 
eine Konjunktion von sechs elementaren statistischen Hypothesen). In den 
Unendlichkeitsfällen müssen wir fingieren, es sei eine Konjunktion von un- 
endlich vielen Sätzen gegeben: im diskreten Fall eine Konjunktion von ab- 
zählbar unendlich vielen elementaren statistischen Hypothesen, im konti- 
nuierlichen Fall sogar eine Konjunktion von überabzählbar unendlich vie- 
len elementaren statistischen Hypothesen. Das letztere sollte man natürlich 
nur als eine fagon de parier betrachten: Mit der Kenntnis der Wahrschein- 
lichkeitsverteilung bzw. der Wahrscheinlichkeitsdichte ist bereits alles ge- 
geben. 

Anmerkung. Hacking hat eine (verständliche) Abneigung gegen die Verwen- 
dung des Begriffes der stochastischen Variablen. Wir brauchen uns dem nicht 
anzuschließen. Gelegentlich verwenden wir den in Kap. 0 eingeführten Begriff der 
Zufallsfunktion. Dies ist einfach eine reelle Funktion, die auf Q definiert ist; im 
kontinuierlichen Fall muß die Funktion meßbar sein. Die , Übersetzung in die 
Zahlensprache* kann man natürlich stets auch dadurch erreichen, daß man die 
möglichen Resultate, also die Elemente von Ü , irgendwie durch Zahlen charak- 
terisiert (im diskreten Fall: durchnumeriert) und dann einfach mit diesen Num- 
mern identifiziert. Die Begriffe der Wahrscheinlichkeitsverteilung und der kumu- 
lativen Verteilung sind dann in vollkommener Analogie zum üblichen Vorgehen 
bereits für die Elemente aus 21 definiert. 

Wir wollen uns jetzt klarmachen, daß in dem abgesteckten begrifflichen 
Rahmen auch der früher erwähnte dynamische Fall behandelt werden kann. 
Der in dem Epidemiebeispiel zur Geltung kommende Sachverhalt läßt sich 
durch das folgende Urnenbeispiel illustrieren: Eine Urne enthalte n = k 
+ m Kugeln und zwar k schwarze und m weiße. Die experimentelle Anord- 
nung X sei so beschaffen, daß für jede der n Kugeln dieselbe Chance be- 
steht, gezogen zu werden, nämlich 1 \n. Ein Versuch vom Typ T bestehe in 
dem folgenden komplexen Vorgang: Man ziehe eine Kugel und untersuche 
ihre Farbe. Ist die Farbe weiß, so lege man die Kugel zurück und mische 
gut, so daß wieder Chancengleichheit für alle Kugeln entsteht. Ist die Farbe 
schwarz, so lege man die Kugel ebenfalls zurück, füge aber außerdem r 
weitere schwarze Kugeln hinzu. Man mische wieder gut, so daß ebenfalls 
Chancengleichheit entsteht. Dann mache man den nächsten Versuch usw. 
Dies ist in dem folgenden Sinn ein (möglicherweise stark vereinfachtes) 
Modell für die Verbreitung einer ansteckenden Krankheit: Das Ziehen einer 
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schwarzen Kugel entspricht einer neuen Infektion. Die Hinzufügung von je- 
weils r weiteren schwarzen Kugeln — welche die Chance erhöht, beim 
nächsten Versuch eine schwarze Kugel zu ziehen — entspricht der sukzes- 
siven Erhöhung der Ansteckungs Wahrscheinlichkeit mit jedem neuen Fall 
von Infektion. Wenn man hier den Zusammenhang von Chance und rela- 
tiver Häufigkeit fixieren will, muß man ins Irreale abschweifen: An jedem 
Punkt der Folge von Versuchen können wir fragen, wie groß die Relative 
Häufigkeit auf lange Sicht 4 wäre, wenn wir zwar Züge und Ersetzungen 
vornähmen, jedoch niemals neue schwarze Kugeln in die Urne legten. 

Ein solches künstliches Modell kann den fraglichen natürlichen Sach- 
verhalt mehr oder weniger gut darstellen, kann ihn aber selbstverständlich 
auch völlig falsch rekonstruieren. Für uns führt das Modell vorläufig nur 
zu der folgenden Einsicht: Eine adäquate Behandlung des dynamischen 
Falles setzt voraus, daß es gelingt, ein Gesetz für die Änderung der dispositionellen 
Eigenschaft Chance zu entdecken. 

Im übrigen aber darf die Bedeutung solcher Modellbeispiele nicht über- 
schätzt werden. Würfe mit Münzen und Würfeln oder Züge aus einem 
Kartenspiel und aus einer Urne bilden gute Illustrationen und sind darüber 
hinaus häufig eine wichtige psychologische Quelle für die Entdeckung pro- 
babilistischer Zusammenhänge. Aber das ist auch alles. Man darf nicht glau- 
ben, daß durch die Konstruktion derartiger Modelle ein Beitrag zur begriff- 
lichen Präzisierung selbst geleistet würde. 

In einer Hinsicht sind diese Modelle sogar gefährlich. Sie legen den 
Gedanken nahe, es könnte eine begriffliche Präzisierung nur für solche 
Modellfälle geliefert werden, in denen eine Versuchsanordnung sowie ein 
Versuchstyp auf künstlichem Wege, d. h. durch vom Menschen geschaffene 
Vorrichtungen, erzeugt werden. Die statistische Behandlung von Natur- 
vorgängen wäre danach erst dann möglich, wenn die ,Übersetzung c in 
die Modellsprache erfolgt ist, wie etwa im obigen Epidemiebeispiel. 

Dies wäre jedoch ein grundlegender Irrtum. Die Begriffe der Anordnung 
und des Versuchstyps müssen vielmehr so weit gefaßt werden, daß auch 
natürliche Prozesse darunter fallen, die vom Menschen teilweise oder ganz 
unbeeinflußt sind, wie etwa in den folgenden beiden Beispielen: (1) Die 
Anordnung X 1 bestehe darin, daß eine männliche und eine weibliche Ratte 
Zusammenkommen. Der Versuch vom Typ T x sei die Paarung. Die mög- 
lichen Resultate seien die möglichen genetischen Eigenschaften der Nach- 
kommenschaft. (2) Die Anordnung X 2 bestehe aus einem Stück Radium 
sowie einem Aufnahmegerät. Der Versuch vom Typ T 2 bestehe in der Fest- 
stellung, ob das Radium innerhalb des Zeitintervalls /*— 1 0 Strahlung emit- 
tiert oder nicht. Die möglichen Ergebnisse : Strahlung sowie keine Strahlung. 
Es ist ohne Belang, ob Menschen beim Arrangement von Anordnung und 
Versuch beteiligt sind. Ebenso spielt es keine Rolle, ob ein Mensch die Resul- 
tate ermittelt ; einMeßgerät oder Roboter kann genau dieselbenDienste leisten. 
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Gelegentlich werden wir den begrifflichen Apparat von Kap. 0 überneh- 
men: Istr eine Zufallsfunktion über dem Stichprobenraum ü, so ist F % die 
(kumulative) Verteilungsfunktion und die Wahrscheinlichkeitsverteilung 
(diskreter Fall) bzw. die Wahrscheinlichkeitsdichte (kontinuierlicher Fall). 
Der Begriff der Verteilung erweist sich als zentral : Alle Methoden %ur Stützung 
statistischer Hypothesen sowie sämtliche Testverfahren für statistische Hypothesen 
sind ausnahmslos Methoden der Stützung und des Tests von Verteilungshypothesen. 

Die wissenschaftstheoretischen Probleme lassen sich prinzipiell am dis- 
kreten Fall erläutern. Kontinuierliche Fälle werden nur gelegentlich am 
Rande herangezogen. 

3. Die Grundaxiome. Statistische Unabhängigkeit 

3.a Die Kolmogoroff- Axiome. Der statistische Begriff der Chance soll 
als Modellbegriff des Wahrscheinlichkeitsbegriffs gewählt werden. Daher 
müssen die Kolmogoroff- Axiome für ihn gelten. Vollständigkeitshalber 
schreiben wir auch diese Axiome an, ohne jedoch nochmals den Begriff des 
Ereigniskörpers zu definieren und ohne die Axiome für eine explizite De- 
finition des Wahrscheinlichkeitsraumes zu benützen. Die Chance des Er- 
eignisses E werde dabei mit W (E) bezeichnet. 

Al. Q^W(E)<\. 

A 2. W (Q) = 1 für das sichere Ereignis Q. 

A 3a. Wenn E x r\E 2 — 0, d. h. wenn E 1 und E 2 miteinander logisch 
unverträglich sind, so gilt: 

W(E 1 r\E 2 ) = W(EP) + 1 V(E 2 ) (Additivität). 

A 3b. Wenn für alle i und j mit / 4= j die Ereignisse E { und E j einander 
ausschließen, so gilt: 

W(l)E t ) = Z W(E t ) (<r- Additivität) . 

Dabei soll im letzten Axiom U E t die abzählbar unendliche Vereinigung 
der Ereignisse E i aus einer vorgegebenen, abzählbar unendlichen Folge von 
Ereignissen E ly E 2 . . . darstellen; analog ist unter S W (E^) die unendliche 
Summe der Chancen der Ereignisse dieser Folge zu verstehen. 

Wenn wir für den Augenblick auf das Explikandum „relative Häufigkeit 
auf lange Sicht“ für den Begriff der Chance zurückgreifen, so kann man die 
folgende intuitive Rechtfertigung für die Axiome geben : Die relative Häu- 
figkeit für das Eintreten eines Ereignisses muß zwischen 0 und 1 liegen. Die 
relative Häufigkeit dessen, was immer eintritt (des sicheren Ereignisses), 
ist gleich 1 . Wenn zwei oder mehrere miteinander unverträgliche (einander 
ausschließende) Ereignisse gegeben sind, so ist die Häufigkeit dafür, daß 
mindestens eines dieser Ereignisse vorkommt, gleich der Summe der Häufig- 
keiten, mit denen diese Ereignisse Vorkommen. 

Die in den drei Axiomen verwendete Symbolik ist ungenau, wenn man 
sie im Licht der vorangehenden Vorbetrachtungen beurteilt: Die Relati- 
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vierung auf die Anordnung sowie den Versuchstyp wird dabei unterdrückt. 
Streng genommen wäre also W als dreistellige Funktion zu deuten. Eine sol- 
che genauere Symbolik soll an späterer Stelle, wo es auf Präzision ankommt, 
eingeführt werden. Es wird sich dabei allerdings als zweckmäßig erweisen, 
mit geordneten Tripeln, bestehend aus einer Anordnung, einem Versuchs- 
typ und einem Ereignis, zu operieren. Unter Benützung dieser Konvention 
hätten wir also im gegenwärtigen Fall statt W(H) zu schreiben: 
W«X, T,E)). 

Ebenso wie bei der logischen Interpretation der Wahrscheinlichkeit ist 
auch bei der statistischen Deutung die eben eingeführte absolute Wahr- 
scheinlichkeit ein Hilfsbegriff. Wichtiger ist der Begriff der bedingten Wahr- 
scheinlichkeit. Es bezeichne W(E,H) (in der ungenaueren Symbolik) die 
Chance, daß ein Versuch (vom Typ T an der Anordnung X) zum Ergebnis 
E führt, unter der Voraussetzung, daß er zum Ergebnis H geführt hat. So 
kann man etwa die Chance einer 6 beim zweiten Wurf mit diesem Würfel 
betrachten unter der Bedingung , daß sich beim ersten Wurf eine 3 ergeben hat . Das 
Explikandum dieses Begriffs kann direkt aus der Reichenbachschen Theorie 
entnommen werden: Die eben erwähnte Chance soll den Begriff der rela- 
tiven Häufigkeit auf lange Sicht präzisieren, mit der Paare von Würfen mit 
diesem Würfel, deren erstes Glied eine 3 ist, als zweites Glied eine 6 haben. 

In der jetzigen Sprechweise lautet die intuitive Motivation für die Defi- 
nition der bedingten Chance folgendermaßen: Es mögen n Versuche vom 
Typ T an der Anordnung X gemacht werden; dabei komme k-m&l //vor 
und /-mal E r\ H. Die Folge derjenigen unter den n Versuchen, derenErgeb- 
nis //ist, bildet eine Teilfolge der n Versuche. Diese Teilfolge repräsentiert 
eine Folge bedingter Versuche , d. h. Versuche mit der Bedingung, daß H vor- 
kommt. Diese bedingten Versuche können E oder non -E als Ergebnis 
haben. Wie ist die relative Häufigkeit der E unter der Voraussetzung H zu 
berechnen? Aus der obigen numerischen Angabe ergibt sich als Wert da- 
für: Hier stehen im Zähler wie im Nenner absolute Häufigkeiten. Die 

relativen Häufigkeiten in der Gesamtfolge ergeben sich nach Division durch 
n: ^.Ersetzen wir im Zähler wie im Nenner das Explikandum durch das 

Explikat, so erhalten wir die Größen: W(E r\ H) sowie W(H). Es wird 
daher die bedingte Definition eingeführt: 

Dj Wenn W(H) > 0, so sei: W(E,H) = • 

Für diese bedingte Wahrscheinlichkeit gelten wieder die Analoga zu den 
Axiomen für die absolute Wahrscheinlichkeit. 

3.b U nabhängigkeit im statistischen Sinn. Es geht hier um zweierlei : 
Erstens um die Aufdeckung einer Äquivokation im Begriff der Unabhängig- 
keit. Zweitens um die Feststellung, daß Unabhängigkeitsannahmen selbst 
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statistische Hypothesen darstellen oder Bestandteile solcher Hypothesen 
sind. Vorläufig konzentrieren wir uns auf das erste. Das zweite soll im 
nächsten Unterabschnitt zur Sprache kommen. 

Derjenige Begriff, den Wahrscheinlichkeitstheoretiker gewöhnlich im 
Auge haben, ist die Unabhängigkeit von Ereignissen. Genauer gesprochen 
handelt es sich um folgendes: Gegeben sei eine Anordnung X sowie ein 
Typ T von Versuchen, vorgenommen an X. Es soll der intuitive Gedanke 
präzisiert werden, daß sich die Ereignisse, welche aus diesen Versuchen 
resultieren, nicht kausal beeinflussen. Man geht dabei methodisch am besten so 
vor, daß man an das Explikandum des Begriffs der Chance, also die relative 
Häufigkeit auf lange Sicht, anknüpft. Es seien etwa E x und E 2 zwei mög- 
liche Ereignisse, zu welchen Versuche vom Typ Tan X u führen können. 
(Wir verlangen, daß E 2 nicht das unmögliche Ereignis ist, d.h. daß E 2 =j= 0; 
E t = 0 könnte zugelassen werden, liefert aber nur einen trivialen Fall.) 
Wenn j E 1 unabhängig von E 2 sein soll, dann muß die relative Häufigkeit 
von 35 E 1 überhaupt dieselbe sein wie die relative Häufigkeit von E 1 bei 
jenen bedingten Versuchen, die E 2 liefern. Die Unabhängigkeitsforderung 
läuft also auf die Forderung hinaus, daß gelten soll: W(E ly ZJ 2 ) = W(E^. 
Wenn man hier links das Definiens von D 2 einsetzt, so erhält man: 

D? W(E X n E 2 ) = I V(EJ • W(E^. 

Dieser Ausdruck ist vollkommen symmetrisch in bezug auf die beiden 
Glieder E 1 und E 2 . Somit kann D 2 als Definition des Begriffs aufgefaßt 
werden, daß die Ereignisse E x und E 2 bei Versuchen vom Typ T an X 
voneinander unabhängig sind (also daß weder das Vorkommen von E 2 das 
Vorkommen von E x 5 kausal beeinflußt noch umgekehrt das Vorkommen 
von E 1 das von ZJ 2 ). 

Die Verallgemeinerung auf den Fall von n Ereignissen liegt auf der 
Hand: n mögliche Ereignisse E v . . ., E n sind voneinander unabhängig, 
wenn für beliebige Durchschnitte von 2 bis n dieser Ereignisse die Chance 
identisch ist mit dem Produkt der Chancen dieser Ereignisse : 

W(E t n Ej) = W(E t ) • W(E,) für / * j 

Dg*> • 

W{E 1 r\ ...r\EJ = W(EJ • . . . • W(E n ) . 

Von diesem Begriff der Ereignisunabhängigkeit ist der Begriff der 
Unabhängigkeit der Versuche selbst zu unterscheiden. Was einem hier vor- 
schwebt, ist etwas ganz anderes. Man kann es so ausdrücken: Die Versuche 
werden unter den gleichen Bedingungen vorgenommen, so daß keine Änderung 

34 Den Zusatz „vom Typ T an der Anordnung X“ lassen wir der einfachen 
Sprechweise halber von nun an häufig fort. 

35 Dies sei hier und im folgenden stets eine Abkürzung für den umständliche- 
ren Ausdruck: „relative Häufigkeit auf lange Sicht des Vorkommens von“. 
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in der Wahrscheinlichkeitsverteilung erfolgt. Im Fall des Münzwurfes etwa : 
Man ersetzt den die Würfe vornehmenden Menschen nicht (plötzlich für 
alle künftigen Fälle oder gelegentlich in regelmäßigen oder in unregel- 
mäßigen Abständen) durch eine Wurfmaschine, für welche die Wurfresul- 
tate mit mehr oder weniger großer Präzision vorausgesagt werden können. 

Dieser zweite Begriff läßt sich auf den ersten zurückführen, wenn man 
den Versuchsbegriff geeignet verallgemeinert. Es seien n Versuche vom 
Typ T vorgenommen worden, welche zu den Ereignissen E ly . . ., E n in 
dieser Reihenfolge führten. Wir sagen nun, daß das geordnete n- Tupel 
(E X y . . E n y aus einem zusammengesetzten Versuch n-ter Stufe (vom Typ T 
an X ) resultiere, der auf Versuchen vom Typ T an X beruht. Als nächstes 
werden die n Komponenten der Resultate eines solchen zusammengesetzten 
Versuchs eingeführt. Die z-te Komponente entsteht in der Weise, daß man 
in dem angegebenen «-Tupel das Glied E t festhält, alle übrigen hingegen 
durch ß, also durch das sichere Ereignis, ersetzt. Die erste Komponente des 
zusammengesetzten Versuchs lautet somit: (E l9 ß, . . ., ß>, die zweite 
Komponente: ( ß, E 2 , ß, . . ., ß ), . . ., die zz-te Komponente: (ß, . . ., 
ß, Bf). Es handelt sich hierbei nur um einen Hilfsbegriff, der es ermöglicht, 
die Ergebnisse des ursprünglichen Versuchs in der Sprache der zusammen- 
gesetzten Versuche auszudrücken. Angenommen etwa, es wurden zz Ver- 
suche vom Typ T vorgenommen, und es sei bekannt, daß der zweite Ver- 
such im Ereignis E 2 resultierte ; alles übrige sei unbekannt. Dies kann man 
jetzt so ausdrücken: Der Versuch zz-ter Stufe hat als zweite Komponente 
das Ereignis (ß, E 2 , ß, . . ., ß). Wenn der z-te ursprüngliche Versuch zu 
E führte, so soll die z-te Komponente des zusammengesetzten Versuchs 
durch (Ey* abgekürzt werden. 

Jetzt kann die allgemeine Definition der Unabhängigkeit gegeben wer- 
den. Zwecks terminologischer Unterscheidung nennen wir die ursprüng- 
lichen Versuche einfache Versuche, während der Ausdruck „Versuch“ 
beide Arten von Versuchen umfassen soll. Die inhaltliche Motivation wird 
der Definition nachgestellt. 

D 3 Versuche vom Typ T an der Anordnung X sind voneinander unab- 
hängig genau dann wenn für jeden zusammengesetzten Versuch be- 
liebiger zz-ter Stufe, der auf einem einfachen Versuch vom Typ T 
beruht, die folgenden zwei Bedingungen erfüllt sind : 

(a) die Komponenten des Versuchs sind im Sinn von D 2 voneinander 
unabhängig; 

(b) für jedes Ereignis Ey das aus einem einfachen Versuch des Typs T 
resultieren kann, ist die Chance von (Ey i — d. h. die Chance, daß 
in der z-ten Komponente des betrachteten Versuchs zz-ter Stufe an 
z-ter Stelle genau das Ereignis E vorkommt — dieselbe wie die 
Chance von E bei einfachen Versuchen vom Typ T . 
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Für die inhaltliche Motivation von (a) und (b) und zugleich zur Illustra- 
tion kann man ein Bild von R. v. Mises über das dynamische und statische 
Wettverhalten benützen. Bekannte oder auch nur geschätzte statistische 
Wahrscheinlichkeiten können ja die Grundlage für Wetten bilden. Wir be- 
trachten nur Fälle der ersten Art. Die Chance eines Ereignisses E bei Versu- 
chen vom Typ T sei gleich p; und zwar sei diese Chance bekannt. Ein Wet- 
tender habe lediglich die Wahl, entweder mit dem Wettverhältnis jö/1 — p auf E 
oder mit dem Wettverhältnis 1 —p\p gegen E zu wetten. Es wird nun ver- 
langt, daß es kein Spielsystem gibt, welches auf lange Sicht Erfolg garantiert. Dieser 
Gedanke umfaßt beide Unabhängigkeitsforderungen. Angenommen nämlich, 
die jeweiligen Resultate würden durch die vorangehenden beeinflußt. Dann 
könnte der Wettende prinzipiell dadurch zum Erfolg kommen, daß er sein 
Wettverhalten in Abhängigkeit von den jeweiligen Resultaten ändert. Daß 
jedes derartige dynamische Wettverhalten erfolglos bleiben muß, besagt, daß 
diese Art von Abhängigkeit nicht vorliegt (D 2 bzw. (a) von D 3 ). Ein 
5 sy s temgeleitetes ‘ statisches Wettverhalten würde demgegenüber darin be- 
stehen, daß der Wettende die Art seiner Wetten nicht von den Resultaten 
abhängig sein läßt, sondern von vornherein einen festen Beschluß darüber 
faßt, auf welche Art von Würfen er wettet 36 (z. B. auf genau die Würfe mit 
einer geraden Nummernzahl). Die Erfolglosigkeit jedes derartigen Wett- 
verhaltens impliziert, daß die einfachen Versuche als solche in dem Sinn 
unabhängig sind, daß keine Änderung in der Wahrscheinlichkeitsverteilung 
vorkommt (D 3 (b)). Die Behauptung der Nichtexisten ^ eines Erfolg garantieren- 
den Spielsystems enthält also %wei Komponenten: eine Aussage über die Erfolg- 
losigkeit jedes dynamischen Wettverhaltens und eine Aussage über die 
Erfolglosigkeit jedes statischen Wettverhaltens. Und damit gewährleistet 
diese Behauptung im Fall ihrer Wahrheit sowohl die Unabhängigkeit der 
Ereignisse als auch die der Versuchsarten. 

An dieser Stelle muß allerdings auf ein mögliches Mißverständnis hin- 
gewiesen werden, dem vermutlich auch Hacking zum Opfer gefallen ist. 
Zwecks größerer Klarheit unterscheiden wir zwischen %wei Kategorien von 
Unabhängigkeitsbegriffen , nämlich internen und externen. Die internen Unab- 
hängigkeit sbegriffe sind diejenigen, welche man innerhalb eines Systems der 
Statistik, in dem bereits ein Wahrscheinlichkeitsbegriff zur Verfügung steht, 
einführen kann. Unter einem externen Unabhängigkeitsbegriff verstehen wir 
einen solchen, den man für die Explikation des Begriffs der statistischen 
Wahrscheinlichkeit selbst benötigt. Was Hacking gezeigt haben dürfte, 
ist dies, daß man zwei Arten von internen Unabhängigkeitsbegriffen unter- 
scheiden kann, von denen sich der zweite auf den ersten und dieser wiederum 
in der üblichen Weise auf den Begriff der Chance zurückführen läßt. Ein 

36 Ein erfolgreicher Wettender wäre einer, der die Art und Weise, wie sich 
die Wahrscheinlichkeitsverteilung von Versuch zu Versuch ändert, richtig oder 
annähernd richtig errät. 
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externer Unabhängigkeitsbegriff wird von ihm gar nicht erwähnt, vermutlich 
in der Überzeugung, daß ein solcher überflüssig oder bereits durch seinen 
zweiten gedeckt sei. Doch dies wäre ein Irrtum. Bereits bei der Erörterung 
des Einwandes (7) von l.b ist darauf hingewiesen worden, daß man neben 
den stochastischen Unabhängigkeitsbegriffen einen Begriff der kausalen Un- 
abhängigkeit benötigt, sofern man nicht die objektivistische Auffassung preis- 
geben und in das subjektivistische Lager hinüberwechseln möchte. Dieser 
Punkt wird in 12. b nochmals zur Sprache kommen. Da wir uns aber vor- 
läufig nicht mit wahrscheinlichkeitstheoretischen Grundlagenfragen, son- 
dern mit dem statistischen Schließen beschäftigen werden, soll vor dem 
Abschnitt 12 unter Unabhängigkeit stets die stochastische Unabhängigkeit 
verstanden werden. Daher werden insbesondere Unabhängigkeitsannahmen in 
den folgenden Abschnitten für uns stets spezielle Fälle von statistischen Hypo- 
thesen bilden. 

Nebenher bemerkt, dürfte in dem eben angedeuteten Sachverhalt eine der 
Wurzeln für die subjektivistische Ablehnung der objektivistischen Wahrschein- 
lichkeitskonzeption zu erblicken sein. Denn einerseits wäre eine Definition des 
Begriffs der Chance mit Hilfe eines probabilistischen Unabhängigkeitsbegriffs 
zirkulär; andererseits erscheint de Finetti und seinen Anhängern der nicht-proba- 
bilistische Unabhängigkeitsbegriff als zu vage, um mit seiner Hilfe eine präzise 
Interpretation des statistischen Wahrscheinlichkeitsbegriffs zu liefern. 

3.c Hypothesen und Oberhypothesen. Eine große Schwierigkeit, auf 
die man bei der Beschäftigung mit statistischen Hypothesen stößt, liegt darin, 
daß man es nur in den seltensten Fällen mit isolierten Hypothesen zu tun hat. 
Auch dies hat wieder zwei ganz verschiedene Gründe : Erstens kann man in 
den meisten Fällen statistische Hypothesen nur in betrug auf mit ihnen rivali- 
sierende Alternativhypothesen derselben Stufe beurteilen. Dieser Aspekt wird 
noch genau zur Sprache kommen. Ein zweiter Grund ist der folgende : In 
fast allen Fällen haben wir es mit einer Superposition von statistischen Hypothesen 
verschiedener Allgemeinheitsstufe zu tun. 

Der Unabhängigkeitsbegriff bildet ein Beispiel für den zweiten Fall. 
Dabei ist zu bedenken, daß eine Unabhängigkeitsbehauptung (von der 
ersten oder von der zweiten Art) keine verifizierbare Aussage darstellt, son- 
dern eine Hypothese . Z weckmäßigerweise fassen wir den Begriff der sta- 
tistischen Hypothese so weit, daß er auch Unabhängigkeitshypothesen um- 
faßt. Derartige Unabhängigkeitshypothesen werden bei der Überprüfung 
statistischer Hypothesen im engeren Sinne meist stillschweigend als gültige 
Oberhypothesen vorausgesetzt . Dies sei an zwei Beispielen erläutert. Im ersten 
Fall ist die Oberhypothese (vermutlich) richtig; im zweiten Fall ist sie 
sicherlich falsch. 

Anmerkung , , Mit Absicht wird für den zweiten Fall eine Situation gewählt, die 
jeder Statistiker als trivialen Fehler bezeichnen dürfte. Es handelt sich hier nur dar- 
um, den zur Diskussion stehenden Sachverhalt: den stillschweigenden Eingang 
einer hypothetischen Überlegung, möglichst klar herauszustellen. Dagegen geht es 
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selbstverständlich nicht darum, den routinierten Statistiker vor Fehlschlüssen 
dieser Art zu warnen. 

1. Beispiel: Es wird nach der Chance gefragt, mit einer vorgegebenen 
Münze bei n Versuchen k-m&l Kopf zu werfen. Das ist ein rein rechnerisches 
Problem, sobald die Frage beantwortet ist, wie groß die Wahrscheinlich- 
keit von Kopf ist. Der Statistiker wird diese Frage in die folgende Auf- 
gabenstellung übersetzen: Es wird nach dem Parameter & einer Binomial- 
verteilung gefragt. Seine Untersuchungen werden sich darauf konzentrieren, 
für diese Aufgabe eine gute hypothetische Lösung zu finden. 

Mit dieser Art der Übersetzung hat er aber bereits eine statistische Ober- 
hypothese stillschweigend als gültig angenommen, nämlich daß bei dem 
Wurf mit der fraglichen Münze eine Unabhängigkeit in beiden Hinsichten 
vorliegt. Die Regel für die Binomialverteilung, d. h. die Newtonsche For- 
mel, gilt nur unter der Voraussetzung, daß beide Arten von Unabhängigkeit 
vorliegen. Alltagssprachlich kann man die stillschweigend akzeptierte Oberhy- 
pothese durch die Konjunktion der beiden Sätze ausdrücken: „Kein Re- 
sultat eines Wurfes beeinflußt das Resultat eines späteren Wurfes“ und: 
„Die Wahrscheinlichkeit der Kopfwürfe bleibt im Verlauf der Durch- 
führungen des Experimentes konstant/ 4 

2. Beispiel: Es soll überprüft werden, ob ein vorgegebenes Kartenspiel 
in bezug auf die Chance, ein As zu ziehen, gefälscht ist. Um die Sache zu 
vereinfachen, konzentrieren wir uns auf das für ein bestimmtes Spiel Rele- 
vante. In dem betreffenden Spiel kann es z. B. darum gehen, in Fünferzügen 
zwei Asse zu ziehen. Deshalb wird die Hypothese in der Weise geprüft, daß 
Fünferzüge untersucht werden und die Anzahl der jeweils wirklich gezo- 
genen Asse mit der Anzahl verglichen wird, die sich bei einem unverfälsch- 
ten Spiel ergeben müßte. Empirische Tests (deren genaue Natur uns hier 
nicht interessiert) ergeben eine gute Stützung der Hypothese, daß das 
Spiel nicht gefälscht ist. Der Prüfende ging von der Annahme aus, daß es 
sich auch hier um eine Binomialverteilung handle. 

Diese Annahme war falsch. Er hat die Doppeldeutigkeit von „5 Karten 
ziehen“ übersehen. Eine Binomialverteilung liegt vor, wenn es sich um 
Züge mit Ersetzung handelt, d. h. wenn die gezogene Karte jedesmal wieder 
ins Spiel zurückgelegt und dann gut gemischt wird. (Die gute Mischung hat, 
wie wir uns erinnern, nur die praktische Funktion, hoffentlich wieder 
Chancengleichheit für sämtliche Karten zu erzwingen). Tatsächlich wurden 
jedoch Fünferzüge ohne Ersetzung vorgenommen, d. h. die jeweils gezogene 
Karte wurde nicht ins Spiel zurückgegeben. Die Verteilung ist daher keine 
Binomialverteilung, sondern eine hypergeometrische Verteilung. Das Bild 
ändert sich nun völlig. Was unter der falschen Oberhypothese (Binomial- 
verteilungshypothese) wie eine gute Stützung der zu testenden Hypothese 
der Unverfälschtheit des Spiels aussah, wird unter der richtigen Oberhypo- 
these (Hypothese des Vorliegens einer hypergeometrischen Verteilung) zu 
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einer Erschütterung dieser Hypothese und zur Stützung der Annahme, daß 
ein gefälschtes Spiel vorlag. An den empirischen Daten hat sich nichts geändert , 
ebensowenig wie an der zß testenden Hypothese . Die einzige Änderung bestand in der 
Ersetzung einer stillschweigend angenommenen Oberhypothese durch eine andere . 

4. Die komparative Stützungslogik 

4.a Vorbetrachtungen. In mindestens zwei Hinsichten ähnelt die Sta- 
tistik der Philosophie. Erstens darin, daß es zahlreiche einander bekämpfen- 
de Richtungen gibt, welche die gegnerischen für Stumpfsinn erklären. 
Zweitens darin, daß in beiden Bereichen eine starke Tendenz zum 
Denken in Schablonen besteht. In der Statistik wie in der Philosophie fin- 
det dies vor allem seinen Niederschlag darin, daß Fragen, die nach ver- 
schiedenen Dimensionen verlaufen, über einen Kamm geschoren und als 
Fragen ein und desselben Typs behandelt werden. Einige wissenschafts- 
theoretisch interessante Fragen seien beispielshalber kurz angeführt. (Da- 
bei soll diesmal unter einer statistischen Hypothese stets eine Verteilungshypo- 
these über die Chancenverteilung der möglichen Resultate aus Versuchen 
eines Typs T an einer Anordnung X verstanden werden. Als degenerierte 
Grenzfälle seien wieder elementare statistische Hypothesen eingeschlossen, 
in denen die Chance für das Eintreten von Ereignissen einer bestimmten 
Art angegeben wird.) 

(1) Gegeben eine statistische Hypothese H und bestimmte Erfahrungs- 
daten E. Wird H durch E gestützt? und wenn ja, in welchem Grad d 

(2) Gegeben verschiedene statistische Hypothesen H ly . . ., H n sowie 
Erfahrungsdaten E . Welche von diesen Hypothesen wird durch E 
am besten gestützt? 

(3) Unter welchen Bedingungen kann man behaupten, daß eine stati- 
stische Hypothese erhärtet sei ? 

(4) Unter welchen Bedingungen kann man behaupten, eine statistische 
Hypothese sei widerlegt d 

(5) Wann ist es vernünftig, eine statistische Hypothese zu akzeptierend 

(6) Wann ist es vernünftig, eine statistische Hypothese zurückzuweisen d 

(7) Was darf man unter der Annahme der Richtigkeit einer statistischen 
Hypothese über die Resultate (von Versuchen eines Typs T an einer 
Anordnung X) vernünftigerweise erwartend 

(8) Was ist die beste Schätzung einer Größe, für die mehrere Messungen 
vorliegen ? 

Dazu gleich einige Bemerkungen: Fragen vom Typ (8) sollen vorläufig 
ausgeklammert werden. Die Theorie der Schätzung bildet einen Problem- 
bereich für sich, dessen logische Grundlagen gesondert untersucht werden 
müssen. Dies soll erst an späterer Stelle geschehen (vgl. Abschn. 10). Hier 
sei nur darauf hingewiesen, daß die Frage doppeldeutig ist . Unter einer guten 
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Schätzung kann eine in einem rein theoretischen Sinn gute Schätzung verstan- 
den werden. Man kann darunter aber auch eine Schätzung verstehen, die 
für einen gan z bestimmten Zweck besonders geeignet ist. Beides braucht nicht 
zusammenzufallen. Ein Armeeführer kann vor Beginn einer Schlacht gut 
daran tun, die Schlagkraft der gegnerischen Armee gegenüber der rein 
theoretisch vermuteten zu Ä?rschätzen. Versteht man die Frage im zweiten 
Sinn, so ist die Einbeziehung von Wertgesichtspunkten unvermeidlich. Bei 
der ersten Interpretation spielen derartige Gesichtspunkte keine Rolle. 
(Carnap z. B. verwendet „Schätzung“ stets nur im rein theoretischen Sinn.) 
Eine zusätzliche Komplikation wird dadurch entstehen, daß auch der theo- 
retische Sinn nicht eindeutig ist, sondern daß sich ein Unterschied ergibt, je 
nachdem, ob man in der Definition des Begriffs der guten (theoretischen) 
Schätzung auf den sog. wahren Wert der Größe Bezug nimmt oder nur auf 
gute Gründe , auf die man sich stützt. Es liegt also hier nicht bloß eine einfache 
Äquivokation vor, sondern eine mindestens dreifache Mehrdeutigkeit. 

Die Frage (1) könnte man als die Übertragung der Carnapschen Frage- 
stellung auf die Statistik bezeichnen. Es wird sich erweisen, daß Fragestel- 
lungen von dieser Art vermutlich nicht sinnvoll sind. Hacking versucht, ein- 
gehend zu zeigen, daß man das Stützungsproblem nur in Bezug auf eine 
ganze Klasse miteinander rivalisierender statistischer Hypothesen formu- 
lieren kann. Die grundlegende Fragestellung wird somit nicht vom Typ (1), 
sondern vom Typ (2) sein. 

Die Frage (3) ist unklar. Versteht man unter einer erhärteten Hypothese 
eine empirisch verifizierte Hypothese, so wissen wir bereits, daß es so etwas 
im Fall statistischer Hypothesen niemals geben kann. Die Frage wäre also 
vollkommen negativ zu beantworten : Unter keinen Bedingungen ist eine sta- 
tistische Hypothese als erhärtet (im Sinn von verifiziert) anzusehen. Man 
muß also nach einer anderen Interpretation suchen. Es scheinen nur die 
Deutungen übrig zu bleiben, die in den Fragen (1), (2) und (5) enthalten 
sind. Damit aber hat die Frage (3) ihre Eigenberechtigung verloren. 

Analog verhält es sich mit der Frage (4). Wir wissen bereits, daß sta- 
tistische Hypothesen nicht nur nicht verifizierbar, sondern auch nicht falsi- 
fizierbar sind. Diese wissenschaftstheoretische Situation ist es ja, welche die 
Grundlagen des statistischen Schließens so undurchsichtig macht. Die von 
Popper hervorgehobene Asymmetrie von strikten Allhypothesen in bezug 
auf Verifizierbarkeit und Falsifizierbarkeit besteht hier nicht. In dieser Hin- 
sicht gleichen statistische Hypothesen nichtstatistischen Annahmen mit 
gemischten unbeschränkten Quantoren. Die Antwort auf (4) wäre also 
wieder rein negativ: Eine definitive Widerlegung statistischer Hypothesen 
aufgrund vorliegender Daten gibt es nicht. Der Widerlegungsbegriff muß 
durch etwas Schwächeres ersetzt werden. Man kann etwa fragen, wann eine 
statistische Hypothese als stark erschüttert anzusehen ist. Dies ist dann und 
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nur dann der Fall, wenn es vernünftig ist, sie zurückzuweisen. Damit ist die 
Frage (4) in die Frage (6) übergegangen. 

Die Fragen (5) und (6) betreffen typische Probleme der statistischen 
Testtheorie. Auch deren Grundlagen sollen später erörtert werden. Vorher 
muß die Stützungstheorie, bestehend aus einer Stützungslogik und der 
Likelihood-Regel, behandelt werden. Die Reihenfolge ist nicht umkehrbar : 
Die Testtheorie muß auf die Stüt^ungstheorie gegründet werden und nicht die letztere 
auf die erstere ; auch läßt sich die erstere nicht unabhängig von der letzteren auf bauen. 
Die Testtheorie kann nicht, wie viele Statistiker meinen, ohne zugrunde- 
liegende Stützungstheorie formuliert werden. In diesem Fall wäre die Test- 
theorie auf einem Vakuum errichtet worden: Die Grundaxiome bilden eine 
viel zu schmale Basis, um irgendeine Aussage über die Annahme oder Ver- 
werfung statistischer Hypothesen begründen zu können. Wer dennoch be- 
hauptet, so etwas sei möglich, übersieht eine Rationalitätslücke. Aufgabe 
der Stützungstheorie ist es, den irrationalen Appell an nicht explizit formu- 
lierte Einsichten überflüssig zu machen, indem die Lücke durch rationale 
Prinzipien ausgefüllt wird. 

So bleibt also noch die Frage (7) übrig. Wir werden sie zunächst ver- 
suchsweise in die Diskussion von (2) einbeziehen. Da es hierbei nicht um 
die Beurteilung statistischer Hypothesen im Lichte von empirischen Be- 
funden geht, sondern umgekehrt um die Beurteilung dessen, was unter der 
Gültigkeitsannahme statistischer Hypothesen empirisch zu erwarten ist, 
soll die systematische Erörterung erst im Rahmen der Themen „statistische 
Begründung <c und „statistische Analyse“ im Teil IV erfolgen. 

Damit reduziert sich vorläufig — d. h. solange wir nicht in die Proble- 
matik der Testtheorie einsteigen — alles auf Fragen vom Typ (2) sowie auf 
den angekündigten Nachweis dafür, daß Fragen von der Art (1) durch sol- 
che von der Art (2) zu ersetzen sind. 

Bereits aus den bisherigen Andeutungen ergibt sich, daß neue Prinzipien 
benötigt werden. Man kann dieses Desiderat schlagwortartig so formulieren : 
Die Kolmogoroff- Axiome gestatten lediglich die Ableitung neuer Wahrscheinlich- 
keiten aus bereits bekannten , also den Beweis bestimmter probabilistischer Wenn . . . 

Dann Sät^e. Sie geben uns nicht den geringsten Anhaltspunkt dafür , wann 

eine statistische Hypothese besser gestützt sei als eine andere, 

4.b Einige zusätzliche Zwischenbetrachtungen. Benötigt wird zu- 
nächst eine Erweiterung der Logik. Von der deduktiven Logik setzen wir 
stets voraus, daß sie zur Verfügung steht. Sie genügt jedoch nicht. Wir 
brauchen weitere Regeln, um von Aussagen über relative Stützung andere 
Aussagen von dieser Art herleiten zu können. Die Klasse dieser Regeln 
wird sehr schwach sein, viel schwächer jedenfalls als die Regeln von Car- 
naps induktiver Logik; denn ein quantitativer Stützungsbegriff wird darin 
nicht Vorkommen. Es wird sich um eine bloß komparative Stützungslogik 
handeln. Infolge ihrer Schwäche wird auch diese Logik nicht ausreichen. 
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Wir werden mindestens ein weiteres Prinzip benötigen, um über die Wenn- 
Dann- Verknüpfungen zwischen statistischen Hypothesen zu kategorischen 
Aussagen über Stützungsverhältnisse zu gelangen. 

Immer wieder wird es sich als wichtig erweisen, begriffliche Diffe- 
renzierungen vorzunehmen, die sich häufig hinter ein und demselben Aus- 
druck verbergen. Als Beispiel sei der Ausdruck „vernünftig“ herausge- 
griffen, auf den man in der Statistik wie in der Entscheidungstheorie sehr 
oft trifft. Die (im Sinn der noch zu entwickelnden Stützungstheorie) am 
besten gestützte unter mehreren statistischen Hypothesen kann man auch 
die vernünftigste unter diesen Hypothesen nennen. Darin liegt zunächst nichts 
Bedenkliches. Es ist jedoch eine Warntafel aufzustellen: Nachlässiger Ge- 
brauch von „vernünftig“ kann zu gänzlich unvernünftigen Schlüssen 
führen ! 

Zunächst ein anschauliches Beispiel von Hacking: Ein junger Mann 
kennt zwei Mädchen, Helga und Elisabeth. In Helga ist er verliebt; Elisa- 
beth mag er nicht. Von beiden erhält er gelegentlich einen Brief. Während 
ihm aber Helga nur sehr selten und in ganz regellosen Abständen schreibt, 
erhält er von Elisabeth regelmäßig Briefe. Nun bekommt er eines Tages 
einen Brief ohne Absender, der einen leichten Parfumgeruch ausstrahlt. Er 
weiß, daß das Schreiben nur entweder von Helga oder Elisabeth stammen 
kann; dagegen weiß er nicht, von welcher der beiden er stammt. 

Intuitiv wird man sagen, daß aufgrund der ihm zur Verfügung stehen- 
den Daten die für unseren jungen Mann am besten gestützte Hypothese die 
ist, daß der Brief von Elisabeth stammt. Vorausgesetzt wird dabei, daß das 
(in diesem Fall quantitativ nicht präzisierbare) Wissen um die relative 
Häufigkeit von Helga-Briefen im Verhältnis zu Elisabeth-Briefen als ein 
Wissen um ein Chancen- Verhältnis gedeutet werden darf 37 . Dieses Wissen 
kann in der Feststellung ausgedrückt werden: „Der Brief stammt höchst- 
wahrscheinlich von Elisabeth“. Der Glaube an diese Proposition ist unter 
den gegebenen Umständen ein vernünftiger Glaube. Nicht mehr vernünftig 
wäre es, wenn der junge Mann zu dem positiven Glauben gelangte, daß der 
Brief von Elisabeth stammt. Ganz und gar töricht und unvernünftig wäre 
es von ihm, sich so zu verhalten, als wüßte er, daß Elisabeth der Absender 
war. Denn dann würde er vermutlich den Berief ungeöffnet zerreißen. 
Selbstverständlich aber sollte er den Brief öffnen, solange noch die geringste 
Chance besteht, daß der Brief von dem geliebten Mädchen kommt. 

37 Dieser Übergang ist nicht selbstverständlich. Das , Wissen' um dieses 
Chancenverhältnis ist auf alle Fälle hypothetisch; denn die beiden Mädchen 
könnten ja ihre früheren Verhaltensdispositionen geändert haben. Doch dieser 
Punkt steht hier nicht zur Diskussion, so daß wir für das gegenwärtige Beispiel 
so tun können, als liege auch bezüglich dieser statistischen Hypothese ein Wissen 
vor. 
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In gewissem Sinn stimmt dieses Resultat mit einer Überlegung von 
Carnap überein, nämlich daß aus einer Aussage über gute ( oder schlechte) 
Stützung einer Hypothese nicht eine Aussage darüber gefolgert werden darf was 
%u akzeptieren (oder ZP verwerfen) ist . 

(I) (a) Es braucht nicht vernünftig zu sein , so zp handeln , als wüßte man , 
daß die vernünftigste Hypothese wahr ist . 

(b) Es braucht nicht einmal vernünftig zp sein , an die Wahrheit der ver- 
nünftigsten Hypothese z u glauben. 

Der Schein einer Paradoxie in diesen Behauptungen entsteht nur dann, 
wenn man den Begriff der vernünftigsten Hypothese in fehlerhafter Weise 
mit den Begriffen des vernünftigen Glaubens und des vernünftigen Handelns 
verknüpft. 

Die folgende Bemerkung soll auf die Notwendigkeit einer strengen 
Unterscheidung zwischen bester Stützung und bester Schätzung aufmerksam 
machen. In vielen Fällen wird die Gleichsetzung nahegelegt. Es werde etwa 
vorausgesetzt, daß es sich bei dem Wurf mit einer bestimmten Münze um 
eine Binomialverteilung handle; unbekannt sei nur der Parameter # für 
Kopf bei diesem Münzwurf. Prima facie sieht es so aus, als dürfe man die 
beiden folgenden Fragen gleichsetzen : 

(1) Welche Hypothese über den wahren Wert des Parameters # ist auf- 
grund der verfügbaren Daten am besten gestützt? 

(2) Welches ist die beste Schätzung des wahren Wertes des Parameters 
# auf de*- Basis der verfügbaren Daten? 

Man kann zwar (2) so deuten, daß es genau dasselbe besagt wie (1). Dies 
entspricht jedoch nicht dem normalen Gebrauch von „Schätzung“. In den 
meisten Fällen wird man daher eine Deutung zugrundelegen müssen, auf- 
grund deren sich der folgende Unterschied ergibt: (1) Ist eine rein theore- 
tische Frage; (2) ist keine rein theoretische Frage. Wertgesichtspunkte 
spielen bei (1) keine Rolle, während sie in (2) eine bedeutsame Rolle spielen. 
Ob eine Schätzung gut oder schlecht ist, hängt auch davon ab, welches Ziel 
man mit ihr verfolgt (vgl. das obige Beispiel aus der militärischen Taktik). 
Wenn wir analog wie in (I) das Prädikat „vernünftig“ benützen, können wir 
dies in der folgenden Aussage festhalten. 

(II) Es braucht nicht vernünftig zp sein , die vernünftigste Hypothese über den 
wahren Wert einer Größe $ für die beste Schätzung dieser Größe zp halten. 

Die vernünftigste Hypothese ist auch diesmal wieder die aufgrund der 
verfügbaren Daten am besten gestützte Hypothese. 

Die vorangehende Betrachtung legt den Gedanken nahe, als ergebe sich 
ein Unterschied zwischen bester Stützung und bester Schätzung nur aufgrund 
der Einschaltung von Wertgesichtspunkten. Nicht einmal dies trifft zu, wie 
das folgende Beispiel zeigt: Für den wahren Wert einer Größe G mögen 
aufgrund der verfügbaren Daten sechs Hypothesen in Frage kommen. 
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Diese sechs Hypothesen schreiben G die folgenden Werte zu: 0,95, 0,08, 
0,09, 0,1, 0,11, 0,12. Die fünf letzten Hypothesen seien aufgrund der Daten 
gleich gut gestützt; die erste Hypothese sei wohl etwas besser gestützt als 
jede der fünf übrigen Hypothesen, aber noch immer weit geringer gestützt 
als die Adjunktion dieser fünf letzten Hypothesen. Die erste Hypothese ist 
also die am besten gestützte. Trotzdem ist es intuitiv viel wahrscheinli- 
cher*, daß der wahre Wert in der Nähe von 0,1 als in der Nähe von 0,95 
liegt. (Um dieses Beispiel eindeutig zu machen, müßten Begriffe wie „nahe 
bei“ präzisiert werden. Hier sollte nur darauf hingewiesen werden, daß 
für den Begriff der besten Schätzung im rein theoretischen Sinn vermutlich 
Differenzierungen vorgenommen werden müssen, die für den Stützungs- 
begriff nicht wesentlich sind, etwa der Unterschied zwischen dem, was nur 
im schwach probabilistischen Sinn vorausgesagt werden kann, und dem, 
was sich im stark probabilistischen Sinn prognostizieren läßt (vgl. dazu 
[Erklärung und Begründung], Kap. III).) 

Wir gelangen somit zu der weiteren Feststellung : 

(III) Seihst dort , wo Wert - und Nützlichkeit süherlegungen keine Rolle spielen 
und nur theoretische Überlegungen Platz greifen, braucht die vernünftigste 
( die am besten gestützte) Hypothese über den wahren Wert einer Größe 
nicht mit der besten Schätzung dieses Wertes zusammenzufallen . 

Die drei Feststellungen sind auch aus folgendem prinzipiellen Grund 
von Wichtigkeit: Sie dienen z ur vorläufigen Abgrenzung von Statistik und Ent- 
scheidungstheorie . Bei der Klärung der logischen Grundlagen der Statistik 
geht es um rein theoretische Probleme. Die grundlegende theoretische Frage 
lautet: Welche statistische Hypothese aus einer Klasse miteinander rivali- 
sierender statistischer Hypothesen ist die am besten gestützte? Wertge- 
sichtspunkte sowie Nützlichkeitserwägungen spielen bei der Beantwortung 
dieser Frage keine Rolle. Dagegen stehen derartige Überlegungen in der 
rationalen Entscheidungstheorie gerade im Vordergrund; denn wir können 
keine rationalen Entscheidungen treffen, ohne die möglichen Konsequenzen 
unserer Entscheidungen wertgemäß zu beurteilen. 

Ist es aber überhaupt sinnvoll, eine rein theoretische Analyse statistischer 
Wahrscheinlichkeiten vorzunehmen, in der von allen Wertgesichtspunkten 
abstrahiert wird? Radikale Verfechter der personalistischen Theorie 
(de Finetti, Savage, Jeffrey) werden dies vermutlich leugnen und behaup- 
ten, daß die hier angestrebten rein theoretischen Überlegungen in nutzloser 
Spintisiererei bestehen. 

Wer recht hat, kann an dieser Stelle nicht beurteilt werden. Wir können 
nur festhalten, daß der Ausgang des Streites zwischen Objektivismus und 
Personalismus davon abhängen wird, ob es gemäß unserer Ankündigung 
gelingen wird, in brauchbarer Weise einen theoretischen Begriff der Chance 
einzuführen; zweitens davon, ob der Personalismus seinerseits mit den Ein- 
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wänden fertig wird, die gegen ihn vorgebracht werden können. Nur das 
erste kommt im folgenden zur Sprache. 

4.c Die Axiome der Stützungslogik. In diesem Abschnitt haben wir 
bereits mehrmals von der Stützung einer Hypothese gesprochen. Dies ist 
der im folgenden zu explizierende Begriff. Bevor man sich anschickt, eine 
Begriffsexplikation durchzuführen, ist es erforderlich, eine gemsse vorläufige 
Klärung des Explikandums %u erzielen. Drei Bemerkungen sollen für uns ge- 
nügen; die erste stützt sich auf eine bereits erbrachte negative Feststellung, 
die zweite knüpft an umgangssprachliche Formulierungen an und die dritte 
zieht einen Vergleich heran: 

(1) Statistische Hypothesen sind aufgrund verfügbarer Daten nicht 
verifizier}? ar. Wären sie dies, so wäre ein Stützungsbegriff vollkommen über- 
flüssig. Der Begriff der (besseren oder schlechteren) Stützung ist derjenige 
schwächere Begriff, den wir, der Not gehorchend, anstelle des Begriffs der 
Verifikation benützen müssen. Der Begriff der Stützung ist im folgenden 
Sinn schwächer als der Begriff der Verifikation: Während eine aufgrund der 
Daten e verifizierte Hypothese h wahr sein muß, sofern e richtig ist, braucht 
eine aufgrund von e gut oder ^bestens* gestützte Hypothese h nicht wahr 
zu sein, wenn e richtig ist. Daß h aufgrund von e mehr oder weniger gut 
gestützt ist, soll bloß besagen, daß das Datum e der Vermutung, daß h rich- 
tig sei, eine mehr oder weniger große Plausibilität oder Glaubhaftigkeit ver- 
leiht. 

(2) Mit der letzten Aussage sind wir aber bereits bei gewissen alltags- 

sprachlichen Kontexten angelangt, die zur Klärung unseres Begriffs bei- 
tragen können. Neben Wendungen, in denen von Plausibilität oder Glaub- 
haftigkeit (bzw. Vergleichbarkeitsgraden oder absoluten Graden von 
solchen) die Rede ist, müßte man Äußerungen aus dem gewöhnlichen wie 
dem wissenschaftlichen Alltag heranziehen, wie: „die Hypothese h x er- 
scheint aufgrund der verfügbaren Fakten als vernünftiger denn die Hypo- 
these h 2 “ ; „die Hypothese h 1 ist relativ auf die verfügbaren Daten viel besser 
gestützt als andere Hypothesen“; aber auch: ist aufgrund der verfüg- 

baren Daten viel wahrscheinlicher als b 2 “. Hinsichtlich von Wendungen 
dieser letzten Art ist jedoch zu beachten, daß mit ihnen selbstverständlich 
nicht impliziert wird, der fragliche Begriff müsse auch eine Wahrscheinlich- 
keit im mathematisch-technischen Sinn darstellen, d. h. er müsse die Kolmo- 
goroff- Axiome erfüllen. 

(3) In der zweiten unter (2) angeführten Wendung war von Bestätigung 
die Rede. Angenommen, das Nachfolgerproblem zum Induktionsproblem 
sei für deterministische Gesetzeshypothesen durch Einführung eines adä- 
quaten deduktiven Bestätigungsbegriffs gelöst worden. (Das Explikat 
braucht weder mit dem Popperschen noch mit dem Hempelschen Begriff 
identisch zu sein.) Dann könnte man sagen, daß es sich jetzt darum handele, 
das analoge Nachfolgerproblem zum Induktionsproblem für statistische Hypothesen 
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lösen . Der Ausdruck „Stützung“ statt „Bestätigung“ soll nur dazu bei- 
tragen, terminologische Konfusionen zu vermeiden. Das qualifizierende 
Adjektiv „deduktiv“ ist hier unangebracht. Ebenso wäre es allerdings irre- 
führend, den StützungsbegrifF als induktiven zu charakterisieren. Er ist, wie 
die Explikation zeigen wird, keines von beiden : deduktivistisch ist er deshalb 
nicht, weil in seinem Definiens nicht nur von Begriffen der deduktiven Logik 
Gebrauch gemacht wird; induktivistisch ist er deshalb nicht, weil er keine pro- 
babilistische Struktur (im technischen Sinn) besitzt. Die Lösung des Nach- 
folgerproblems zum Induktionsproblem besteht ebenso wie im deterministi- 
schen Fall in der Bewältigung zweier Aufgaben: erstens einer scharfen 
Definition dieses Begriffs; und zweitens im Nachweis der Adäquatheit dieses 
Begriffs. 

Über die Begriffsform (klassifikatorisch, komparativ oder quantitativ) 
haben wir bislang nichts ausgesagt. Die Vermutung liegt nahe, daß ein 
quantitativer Begriff anvisiert werden soll. Dies ist jedoch nicht der Fall. 

Während Carnap dem quantitativen Begriff der statistischen Wahrschein- 
lichkeit einen ebenfalls quantitativen Begriff des Bestätigungsgrades an die 
Seite stellt, soll hier dem quantitativen Begriff der Chance (statistischen 
Wahrscheinlichkeit) nur ein komparativer Begriff der Stützung (Analogon 
zu Carnaps Bestätigungsbegriff) superponiert werden. In formaler Hinsicht 
vollzieht sich dabei ein Übergang von der Objektsprache zur Metasprache: 
Statistische Hypothesen, in denen von Chancen und deren Verteilungen die 
Rede ist, bilden ebenso objektsprachliche Aussagen wie jene, in denen die Er- 
fahrungsdaten formuliert werden. In der Stützungslogik dagegen werden 
metasprachliche Sätze, also Sätze über Aussagen formuliert. Dazu wird eine 
vierstellige Relation M für objektsprachliche Propositionen eingeführt. Die 
Aussagen, welche in der Anwendung den Gegenstand der Beurteilung 
bilden, sind teils Sätze über Chancen, teils Erfahrungsätze. Die vierstellige 
Relation M(h ly e ly h 2y e 2 ) drückt die folgende Relation aus : e 2 stützt die Hypo- 
these h 2 mindestens ebenso gut wie e x die Hypothese h 1 stützt. Größerer Suggestivi- 
tät halber soll jedoch nicht das eben eingeführte Relations Symbol verwen- 
det werden. Vielmehr soll diese Aussageform durch die Formel 9 Jj x ki ^ 
h 2 | e 2 “ abgekürzt werden. Zu beachten ist dabei nur, daß die beiden Zei- 
chen „ | “ und „^“ keine selbständige Bedeutung besitzen, sondern nur in 
diesem ganzen Kontext definiert sind. In den folgenden Axiomen ist eine 
abgeschwächte Form der komparativen Stützungslogik von Koopman aus- 
gedrückt. (Alle Aussagen sind so zu verstehen, daß die Aussagenvariablen 
in der Allinterpretation zu nehmen sind.) 

Anmerkung, Der komparative StützungsbegrifF soll an späterer Stelle scharf 
definiert werden. Gegenwärtig wird er als Undefinierter Grundbegriff verwendet, 
für den die vorbereitenden intuitiven Erläuterungen genügen, um die folgenden 
elementaren Axiome aufzustellen. 
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Axiom 1 ( Regel der L-Implikation ) . Wenn h 1 ff- h 2i dann gilt: 

b 1 1 e < h 2 | e (inhaltlich: eine dem Gehalt nach schwächere 
(oder zumindest nicht stärkere) Aussage wird durch Erfah- 
rungsdaten mindestens ebensogut gestützt wie eine dem Gehalt 
nach stärkere (oder zumindest nicht schwächere) Aussage.) 

Axiom 2 (Konjunktionsregel ) . Wenn e ff- h 2 , dann h 1 \e < a Z> 2 ) | e 
(logische Folgerungen der benützten Erfahrungsdaten dürfen 
zu der Hypothese konjunktiv hinzugefügt werden, ohne deren 
Stützungsgrad zu verringern.) 

Axiom 3 ( Transitivitätsprin^ip ) . Wenn h 1 \e 1 < h 2 \ e 2 und h 2 | e 2 ^ h 3 | e 3 , 
dann h 1 \e 1 < h z \ e 3 . 

Dieses Axiom liefert die nachträgliche Rechtfertigung dafür, von einem 
komparativen Begriff der Stützung zu sprechen. 

Axiom 4 ( Maximalprin^ip ) . h | e ^ k | k (jede Aussage stützt sich selbst 
mindestens ebenso gut wie eine beliebige Aussage irgendeine 
Aussage stützt). 

Theorem.Wenn e 1 ff- ^ und {h\ a h ± ) | e 1 < (h' 2 a b 2 ) | e 2 , dann h\ | e ± 

4 I e 2- 

Beweis . Wegen der ersten Voraussetzung kann Axiom 2 angewendet 
werden, so daß man erhält: 

(1) h\ | e x < (b\ a b x ) | e x . 

Nun gilt weiter: ti 2 a h 2 H— also nach Axiom 1 : 

(2) ( p 2 A b ^) | ^2 — ^2 I ^2* 

Nimmt man die zweite Voraussetzung hinzu und wendet darauf und auf (1) 
zweimal das Axiom 3 an, so gewinnt man die Behauptung. 

Die Begriffe der Stützungsgleichheit und -Verschiedenheit können in 
der bekannten Weise definiert werden. So kann man z. B. „h x | e x < h 2 | e 2 c 
definieren als : „h x | e x ^ b 2 | e 2 a — \ {h 2 | e 2 < h x | e j)“. Das obige Theorem 
gilt dann in der verschärften Form mit „< <c anstelle von ”. 

5. Die Likelihood-Regel 

S.a Kombinierte statistische Aussagen. Wir knüpfen wieder an 
Hackings Gedanken an. Doch werden sich die folgenden Betrachtungen 
von seinem Vorgehen in bezug auf Inhalt, Methode und Formalisierung 
unterscheiden. 

Hacking geht heuristisch vor: Er führt einige Prinzipien an, die all- 
gemein als gültig anerkannt sind und zeigt, daß sie nicht in einer der übli- 
chen Weisen gerechtfertigt werden können. Es scheint also nur übrig zu 
bleiben, sie als Axiome zu formulieren oder aus einem allgemeineren Prin- 
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zip herzuleiten, das als ebenso unanfechtbar erscheint. Als solches Prinzip 
bietet sich am Ende die Likelihood-Regel an, von Hacking “law of likeli- 
hood” genannt. 

Wir gehen hier methodisch umgekehrt vor. Zunächst soll die Regel in 
einer abgeschwächten Form formuliert werden 38 . Erst im nachhinein zei- 
gen wir, was sich mit ihr anfangen läßt. In einem vorbereitenden Schritt 
wird ein neuer Hilfsbegriff benötigt. Zwecks Präzisierung erweist es sich 
dabei als notwendig, gelegentlich vom Hackingschen Formalismus stark 
abzuweichen. 

Statistische Hypothesen sind, wie bereits früher erwähnt, stets Verteilungs- 
hjpothesen . In der Statistik ist es üblich, solche Hypothesen durch die Wahl 
einer Verteilungsfunktion festzulegen. Wir kürzen eine beliebige derartige 
Hypothese durch „D“ ab (für „Distribution“). Wir können statistische 
Hypothesen aber nicht in dieser einfachen Weise symbolisieren. Aus den 
früher angegebenen Gründen ist ja stets die Relativierung auf eine Anord- 
nung X sowie auf einen Versuchstyp T an dieser Anordnung zu beachten. 
Wir symbolisieren statistische Hypothesen daher als geordnete Tripel von der 
Art (X, T, Dy (umgangssprachlich etwa: „die Verteilung von Chancen, 
die sich für Versuche vom Typ T an der Anordnung X ergibt, ist D“). 

Eine in gewisser Hinsicht analoge Symbolisierung wählen wir, um das 
empirische Resultat eines Zufallsexperimentes beschreiben zu können. 
Wieder sei X eine Anordnung; V? sei diesmal ein konkreter Versuch vom 
Typ T; E sei ein bestimmtes, aus diesem Versuch resultierendes Ereignis 
(genauer gesprochen: das Element des Stichprobenraumes, das aus V x 
resultiert, sei Element der Menge E ). Diese komplexe Aussage kürzen wir 
ab durch: (X y Vx, Ey . Von E setzen wir stets stillschweigend voraus, daß 
es ein Element des zugehörigen Ereigniskörpers ist. (Im diskreten Fall ist 
diese Annahme in trivialer Weise erfüllt, da wir als Ereigniskörper die Po- 
tenzmenge des Stichprobenraumes wählen. Nur im kontinuierlichen Fall 
findet hier eine zusätzliche Voraussetzung Eingang; denn E muß eine in 
bezug auf das eingeführte Wahrscheinlichkeitsmaß meßbare Menge sein.) 

Wenn A und B zwei Aussagen sind, so soll { A;By das geordnete Paar 
von A und B darstellen. Inhaltlich soll darunter also eine Konjunktion ver- 
standen werden, die nicht kommutativ ist, bei der es also auf die Reihenfolge 
der Glieder ankommt (die intuitive Motivation für diesen Begriff wird so- 
fort gegeben.) 

Unter einer einfachen kombinierten statistischen Aussage verstehen wir jetzt 
eine Aussage von der folgenden Gestalt: 

(*) <(x,T,Dy ; <x,v T) Eyy 

38 Die Begründung für die Abschwächung wird die in l.a, (V) geäußerten 
Zweifel bestätigen, ob M(h 1 ,e u h 2 ,e 2 ) nicht nur dann einen brauchbaren Begriff 
liefert, wenn entweder e x mit e 2 oder b x mit h 2 L-äquivalent ist. 
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(inhaltlich: „die Verteilung der Chancen bei Versuchen vom Typ T an der 
Anordnung X ist £>;und bei dem Versuch Vjrv om Typ Tan derselben An- 
ordnung ergibt sich das Ereignis E “.) 

Das Motiv für die Einführung dieses Begriffs ist das folgende: In ge- 
wissen Fällen wird die statistische Hypothese als gegeben betrachtet. In 
einem solchen Fall handelt es sich darum, aus dem ersten Glied von (*) auf 
das zweite Glied zu schließen. In anderen Fällen ist umgekehrt der empi- 
rische Befund bekannt. Hier wird es dann darum gehen, aus dem zweiten 
Glied von (*) Rückschlüsse auf das erste zu machen. Um beide Klassen von 
Fällen simultan zu erfassen, ist diese neue Symbolik erforderlich: das erste 
Glied eines geordneten Paares (*) ist stets eine allgemeine statistische Ver- 
teilungshypothese; das zweite Glied dieses Paares bildet einen konkreten 
statistischen Befund. 

Aussagen der Art (*) werden in zwei Hinsichten verallgemeinert: Es 
wird erstens zugelassen, daß nicht nur von einer ganz bestimmten Vertei- 
lung D die Rede ist, sondern von einer (möglicherweise unendlichen) 
Klasse von Verteilungen A. Zweitens braucht der konkrete Versuch nicht 
vom selben Typ zu sein, von dem im ersten Glied die Rede ist, sondern 
kann zu einem davon verschiedenen Typ T' gehören. (In allen praktischen 
Anwendungen wird die Relation von T und T' genauer beschrieben, d. h. 
der Versuchstyp T' wird ein in genau angegebener Weise vom Versuchstyp 
T abgeleiteter Versuchstyp sein.) Die verallgemeinerte Form lautet also: 

(**) «Af,r,Zl>;<X, K r ,£» 

(inhaltlich: „die Verteilung der Chancen bei Versuchen des Typs T an der 
Anordnung X gehört zur Klasse A ; und bei dem Versuch 1 Y T , vom Typ T r 
an derselben Anordnung ergibt sich das Ereignis E .“) 

Sätze von der Gestalt (*) oder (**) sollen kombinierte statistische Aussagen 
heißen. Nicht einfache kombinierte statistische Aussagen sollen komplexe 
Aussagen genannt werden. Da der Ausdruck „kombiniert“ nur in dem eben 
definierten Begriff vorkommt, lassen wir häufig das Prädikat „statistisch“ 
fort und sprechen bloß von kombinierten Aussagen oder Propositionen. 

Statistische Hypothesen sollen je nach Kontext Erstglieder von Aussagen 
der Art (*) oder von Aussagen der Art (**) sein. 

Im ersten Fall sprechen wir auch von einfachen statistischen Hypothesen , 
im zweiten Fall von komplexen statistischen Hypothesen. Die beiden Prädikate 
„einfach“ und „komplex“ werden also einerseits auf kombinierte Aussagen , 
andererseits auf Erstglieder von solchen, also auf statistische Hypothesen , 
angewendet. Erstglieder einer kombinierten Aussage können die dieser 
kombinierten Aussage entsprechenden statistischen Hypothesen genannt 
werden. 

Eine kombinierte Aussage folgt logisch aus einer anderen, wenn sowohl 
das erste als auch das zweite Glied der ersteren aus den entsprechenden 
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Gliedern der letzteren folgt. Diese Folgebeziehung ist ganz in mengentheo- 
retischer Symbolik ausdrückbar. Die zwei wichtigsten Fälle sind die folgen- 
den: 

(1) Daß aus «. X, T y D >; <Af, V T , E^y die Aussage «AT, T,A); 
(X, Vjy E 2 }} logisch folgt, gilt gdw D £ A und E 1 C E 2 (man erinnere 
sich daran, daß Ereignisse als Mengen dargestellt sind). 

(2) Daß aus (XyV^E^y die Aussage «^,r,zJ 2 >; 

{X, V T , E 2 )) logisch folgt, gilt gdw A x C A 2 und E x C E 2 . 

Wer das ^Denken in Aussagen c dem 5 Denken in Mengen c vorzieht, kann 
das Symbol „ C “ in diesen beiden Bestimmungen stets durch das Folge- 
symbol „ff-” ersetzen. 

Logische Äquivalent zweier kombinierter Aussagen bedeutet wechsel- 
seitige logische Implikation dieser beiden. Daß aus A die Aussage B logisch 
folgt, wird gelegentlich auch so ausgedrückt: A ist in B eingeschlossen . In 
(1) und (2) ist also jeweils die erste statistische Aussage in der zweiten ein- 
geschlossen. 

Die wechselseitige Austauschbarkeit der durch „ C “ und „H— “ ausge- 
drückten Begriffe gilt also im allgemeinen sowohl für kombinierte Propo- 
sitionen wie für deren Glieder. Eine Ausnahme bildet nur die eine Hälfte 
der in (1) geschilderten Folgebeziehung, die nicht auf die Einschlußrelation, 
sondern auf die Elementschaftsbeziehung zurückgeführt wird. 

5.b Likelihood und Likelihood-Regel. Der Ausdruck „statistische 
Hypothese“ wird hier und im folgenden stets im eben definierten Sinn ver- 
standen. Ob eine einfache oder eine komplexe statistische Hypothese ge- 
meint ist, ergibt sich unzweideutig aus dem Kontext. 

Angenommen, es soll die statistische Hypothese geprüft werden, daß 
ein vorgegebener Würfel unverfälscht ist, so daß die Chance, mit diesem 
Würfel eine 6 zu werfen, gleich 1/6 ist. Man würfelt 20mal und erhält 14 
mal eine 6. Aufgrund dieses Datums wird man vermutlich zu dem Ergebnis 
gelangen, daß der Würfel doch zugunsten der 6 gefälscht sei, daß also die 
erwähnte Hypothese mutmaßlich unrichtig ist. 

Wie läßt sich diese Vermutung begründen? Man überlegt sich zunächst, 
wie groß die Wahrscheinlichkeit ist, bei 20 Würfen 14 Sechserwürfe zu er- 
halten unter der Voraussetzung, daß die angegebene statistische Hypothese stimmt 
(wonach also eine Gleichwahrscheinlichkeit für alle sechs möglichen Augen- 
zahlen besteht). Es stellt sich heraus, daß diese Wahrscheinlichkeit unge- 
heuer gering ist. Man schließt nun so weiter : Wir können nicht annehmen, 
daß sich vor unseren Augen etwas ungeheuer Unwahrscheinliches ereignet 
hat. Also dürfte die statistische Hypothese unrichtig sein. Man wird somit 
diese Hypothese preisgeben und durch eine andere (oder durch eine Klasse 
anderer Hypothesen) ersetzen, in der (in denen) eine Begünstigung für die 
6 ausgesprochen ist. 
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Die Wahrscheinlichkeit des Ereignisses aufgrund der statistischen 
Hypothese wird die Likelihood der Hypothese in bezug auf das Ereignis ge- 
nannt. Wer das erste Mal von der Likelihood hört, muß den Eindruck ge- 
winnen, in eine , verkehrte Welt c versetzt worden zu sein. Es wird darin ja 
nicht die Wahrscheinlichkeit von etwas, das sich möglicherweise ereignen 
könnte, ermittelt; auch wird nicht die Wahrscheinlichkeit einer Hypothese 
aufgrund gegebener Daten beurteilt. Vielmehr wird die Wahrscheinlichkeit 
von Ereignissen , welche tatsächlich stattgefunden haben , bestimmt . Dies erscheint 
prima facie als recht merkwürdig; denn wie kann man die Wahrscheinlich- 
keit von etwas, das bereits eingetreten ist, also mit Sicherheit gilt, bestimmen ? 
Dennoch liegt darin nichts Paradoxes. 

Die Beurteilung wird ja unter der (möglicherweise ganz falschen) An- 
nahme vorgenommen, daß eine bestimmte statistische Hypothese richtig 
sei. Und die Bestimmung des Wahrscheinlichkeitswertes soll natürlich nicht 
dazu dienen, dabei stehen zu bleiben — was sich tatsächlich ereignet hat, 
das hat sich mit Sicherheit ereignet, so daß eine Wahrscheinlichkeitsbeur- 
teilun gfür dieses Ereignis selbst keine zusätzliche Information liefern könnte— ; 
vielmehr soll die Bestimmung dieses Wahrscheinlichkeitswertes dazu dienen, 
einen Rückschluß auf die Hypothese zu ermöglichen. 

Es sei schon hier hervorgehoben, daß der skizzierte Gedankengang 
einen Fehler sowie einen problematischen Übergang enthält. Der Fehler 
liegt in der stillschweigenden Annahme, daß die fragliche Hypothese wegen 
ihrer außerordentlich geringen Likelihood als in sehr geringem Maße ge- 
stützt anzusehen sei. Wie noch genauer zu zeigen sein wird, beruht die 
scheinbare Überzeugungskraft des Gedankens auf einer stillschweigenden 
Annahme, nämlich daß es mit der %ur Diskussion stehenden statistischen Hypo- 
these rivalisierende Alternativhypothesen gibt , deren Likelihood in be%ug auf das 
Datum wesentlich größer ist . Anders ausgedrückt: Was zählt, ist nicht die 
isolierte oder 5 absolute c Likelihood einer einzigen Hypothese, vielmehr 
zählen nur die Relationen zwischen der Likelihood einer Hypothese zu 
den Likeühoods mit ihr rivalisierender Alternativhypothesen. 

Der Likelihoodvergleich möge an einem einfachen Beispiel erläutert 
werden. Eine Münze werde zweimal geworfen. Beide Male sei das Resultat 
Kopf (abgekürzt: K). Dies ist unser Erfahrungsdatum E. Zwei statistische 
Hypothesen h 1 = (AT, T> Df) und h 2 = (Al, T, Df) werden miteinander 
verglichen. Die erste besage in inhaltlicher Sprechweise, daß die Münz- 
würfe voneinander unabhängig sind mit W(K) = 0,8; die zweite besage 
ebenfalls die Unabhängigkeit der Würfe, aber mit W(K) = 0,3. (Diese An- 
gaben genügen. Wegen der vorausgesetzten Gültigkeit der Axiome ist mit 
S für Schrift das erste Mal W(S) = 0,2 und das zweite Mal 0,7.) Die Likeli- 
hood von b x bezüglich E ist dann 0,64 und die Likelihood von h 2 bezüglich 
desselben Erfahrungsdatums E ist gleich 0,09. Die erste Hypothese besitzt 
also eine mehr als siebenmal größere Likelihood als die zweite. Wie dieses 
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Beispiel zeigt, muß der Begriff der Likeühood stets auf ein ganz bestimmtes 
Erfahrungsdatum relativiert werden. Innerhalb der formalen Präzisierung 
werden wir dieser Relativierung dadurch entgehen, daß wir die Likelihood 
nicht für statistische Hypothesen in dem hier verwendeten Sinn definieren, 
sondern für einfache kombinierte statistische Aussagen im oben präzisierten 
Sinn. 

(Es möge nicht übersehen werden, daß wir die Symbole „h 2 “ usw. 
je nach Kontext für etwas anderes verwenden. Innerhalb intuitiver Er- 
läuterungen handelt es sich stets um statistische Hypothesen von der eben 
geschilderten Art. Innerhalb formaler Texte handelt es sich meist um kom- 
binierte statistische Aussagen.) 

Der Gesichtspunkt, wonach nur Likelihood- Vergleiche bei der Beurtei- 
lung statistischer Hypothesen ausschlaggebend sein sollen, wird sich als 
außerordentlich wichtig erweisen. 

Problematisch ist der Übergang zur Annahme oder Verwerfung. Aufgabe 
einer Stützungstheorie ist es nicht. Regeln für die Annahme und Ver- 
werfung von Hypothesen zu formulieren. Das letztere geschieht erst in der 
Testtheorie. Diese beruht zwar, wie bereits erwähnt, auf der Stützungs- 
theorie, ist aber mit dieser nicht identisch, noch kann sie aus der Stützungs- 
theorie gefolgert werden. 

Wichtige Anmerkung. Der Begriff der Likelihood wurde zwar mittels des 
Begriffs der Chance (statistischen Wahrscheinlichkeit) definiert. Dies legt 
die Vermutung nahe, daß der Begriff der Likelihood ebenfalls die Kolmo- 
goroff-Axiome erfüllt und daß man daher mit diesem Begriff so operieren 
könne, ,als handle es sich um eine Wahrscheinlichkeit*. Eine solche An- 
nahme wäre jedoch unrichtig. Wir begnügen uns damit, dies für den dis- 
kreten Fall zu zeigen und knüpfen dazu an das obige Beispiel mit dem 
Münzwurf an. Angenommen, es stünden uns abzählbar unendlich viele 
miteinander unverträgliche statistische Hypothesen zur Verfügung, deren 
jede einen anderen Zahlenwert zwischen 0 und 1 für W(K) liefert. Das 
Beobachtungsdatum sei dasselbe wie im obigen Beispiel. Dann hat jede 
dieser unendlich vielen Hypothesen eine Likelihood, die größer ist als 0. 
Angenommen weiter, die Hypothesen seien so gewählt, daß die Likelihoods 
die folgenden Werte haben: 1/2, 1/3, 1/4, 1/5, .. . Wären die formalen Prin- 
zipien der Wahrscheinlichkeitstheorie erfüllt, so müßte insbesondere das 
3. Axiom gelten und die Summe der Likelihoods den Wert 1 haben. Tat- 
sächlich ist jedoch dieser Wert unendlich (harmonische Reihe!). Das Ge- 
sagte gilt offenbar erst recht für den Fall, wo kontinuierlich viele statistische 
Hypothesen betrachtet werden. 

Ein komparativer Begriff der Bestätigung oder Stützung, der auf einem Likeli- 
hoodvergleich beruht , hat also eine nichtprobabilistische Struktur . Versteht man unter 
induktiven Theorien der Bestätigung solche, in denen der Bestätigungsbe- 
griff durch einen komparativen oder quantitativen Wahrscheinlich keitsbtgnS 
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definiert wird, so ist die Likelihood-Stützungstheorie keine induktive Theorie 
der Bestätigung. 

Wir gehen dazu über, den Begriff der Likelihood zu präzisieren. Bei 
Zugrundelegung des Begriffs der einfachen kombinierten statistischen Aus- 
sage ist dies sehr einfach. Gegeben sei die kombinierte Aussage h : «AT, T y Dy ; 
(AT, Vj-yEyy. Unter der Likelihood L(h ) von h verstehen wir die Chance 
W(E ), die sich bei Versuchen vom Typ T an der Anordnung X ergibt, 
wenn die Verteilung D ist (wenn also diese Verteilung die Gestalt hat, die 
im ersten Glied der geordneten Konjunktion h beschrieben wird.) Zweierlei 
ist hier zu betrachten : 

1. Der Begriff der Likelihood ist nur für eine einfache kombinierte sta- 
tistische Proposition definiert, nicht dagegen für Aussagen von der Art (**). 
Für diese letzteren liegt gar keine bestimmte Verteilung und damit auch 
kein bestimmtes Wahrscheinlichkeitsmaß fest, so daß auch eine bestimmte 
Wahrscheinlichkeitsbeurteilung eines vorgegebenen Ereignisses unmöglich 
ist. 

2. Zum Unterschied von den Begriffen der bedingten statistischen und 
der bedingten induktiven Wahrscheinlichkeit sind Likelihoods absolute 
Größen und nicht Größen, die auf etwas anderes relativ sind: Es wird der 
Begriff der Likelihood einer einfachen kombinierten Aussage schlechthin 
definiert, nicht hingegen bloß der Begriff der Likelihood einer Aussage 
unter der Annahme , daß das und das bekannt sei . (Dies widerspricht keineswegs 
dem obigen Hinweis darauf, daß nur relative Likelihoods eine Rolle spielen. 
Denn dort war an den Likelihoodvergleich verschiedener Propositionen gedacht. 
Dies wird sogleich in der Likelihood-Regel präzisiert werden.) Die Ver- 
meidung jeder Art von Relativierung in der Likelihood-Definition wurde 
offenbar dadurch erzielt, daß die Likelihood von einem geordneten Paar 
von Aussagen, aufgefaßt als geordnete Konjunktion, prädiziert wird. 

Selbstverständlich aber kann der auf diese Weise eingeführte Likelihood- 
Begriff durch Definition wieder auf statistische Hypothesen , also auf Erst- 
glieder von Aussagen der Art der Aussage h , übertragen werden, wobei 
aber jetzt eine Relativierung auf Beobachtungsdaten erforderlich ist. Wenn wir 
das Erstglied der obigen Aussage h = (( X , T y D ); (AT, Vt> E )) die sta- 
tistische Hypothese s nennen, so ist W{E) die Likelihood der statistischen 
Hypothese s bezüglich des Beobachtungsdatums E y abgekürzt: L(s y E). 

Wir werden gewöhnlich den Likelihood-Begriff in der ersten Form be- 
nützen. In 9.d wird im Rahmen der Likelihood-Testtheorie an die übliche 
zweite Form angeknüpft. Mißverständnisse können trotz dieser Doppel- 
deutigkeit des Likelihood-Begriffs nicht auftreten. Denn entweder ist von 
der Likelihood einer kombinierten statistischen Aussage die Rede, oder von 
der Likelihood einer statistischen Hypothese — also des Erstgliedes einer 
kombinierten Aussage — relativ auf ein Beobachtungsdatum. Im ersten Fall ist 
die Likelihood-Funktion L(f) einstellig, im zweiten Fall ist sie eine zwei- 
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stellige Funktion L(- ,-). Für die Likelihood der kombinierten Aussage h 
haben wir bereits die Abkürzung L(ti) eingeführt. Analog kürzen wir die 
Likelihood der statistischen Hypothese s bezüglich des Beobachtungsdatums 
E durch L(s, E ) ab. 

Als zusätzliches Axiom formulieren wir jetzt die 

Likelihood- Regel für diskrete Verteilung LR^ (der untere Index „d“ steht 
für „diskret“) : 

Es gelte : 

(1) h 1 und h 2 seien zwei einfache kombinierte statistische Propositio- 
nen mit diskreten Verteilungen. Entweder die beiden Erstglieder von h x 
und h 2 oder die beiden Zweitglieder von h x und h 2 seien miteinander identisch. 

(2) e sei eine komplexe kombinierte Proposition; 

(3) Sowohl h x als auch h 2 sind in e eingeschlossen. 

Dann gilt: Das Datum e stützt h x besser als h 2 , wenn L(h^) > L (ä 2 ), d.h. 
wenn die Likelihood von h x die Likelihood von h 2 übersteigt (oder anders 
ausgedrückt: wenn das Likelihoodverhältnis L(h^)\L (h 2 ) größer ist als 1). 

Wir wollen die Regel noch teilweise formalisieren. Mit „>“ für „besser 
gestützt als“ kann es folgendermaßen formuliert werden : 

LR^ Es seien die obigen Voraussetzungen (1) und (2) erfüllt. 

Dann gilt: (^ C e a h 2 C e ) -> [L(b^ > L(h 2 ) -> b 1 \e > h 2 \e )]. 

Falls man zu der Auffassung gelangen sollte, daß die erwähnte Größer- 
Relation zwischen den Likelihoods nicht nur eine hinreichende , sondern außer- 
dem eine notwendige Bedingung für diese Stützungsrelation darstellt, so 
würde diese Regel aufhören, ein Postulat zu sein, und sich in eine bedingte 
Definition des Begriffs „besser gestützt als“, verwandeln. Denn dann könnte 
unter den beiden Voraussetzungen (1) und (2) die Stützungsrelation folgen- 
dermaßen eingeführt werden : 

h^e > h 2 \e = D f^iC e a h 2 C e a L(bf) > L(h 2 ). 

Wenn von zwei kombinierten Aussagen mit identischem Zweitglied 
die eine besser gestützt ist als die andere, so übertragen wir dieses Stützungs- 
verhältnis auch auf die statistischen Hypothesen, welche die betreffenden 
Erstglieder ausmachen und sagen : Die erste statistische Hypothese ist aufgrund 
der vorliegenden Beobachtungsbefunde besser gestützt als die zweite statistische Hypo- 
these. 

Der Leser möge abermals nicht übersehen, daß wir auf der linken Seite 
nur größerer Anschaulichkeit halber die beiden Symbole „|“ und „>“ ver- 
wendeten, daß diese jedoch nur in diesem Gesamtkontext eine Bedeutung 
haben, also nicht aus dem Zusammenhang herausgerissen werden dürfen. 
Was tatsächlich definiert wurde, ist eine dreistellige Relation. Wer die obige 
Symbolik daher irreführend findet, möge das Definiendum (bzw. das letzte 
Formelglied im Postulat) durch den dreistelligen Relationsausdruck 
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99 Stä(b l9 h 2 , e) cc ersetzen. Weiter ist zu beachten: Im Definiens wird zwar 
die Größer-Relation auf zwei Quantitäten (nämlich auf L(h-j) und L(h^j) 
angewendet. Trotzdem ist der Stützungsbegriff kein quantitativer, sondern 
ein komparativer Begriff. Quantitative Stützungsbegriffe lägen erst vor, wenn 
es erlaubt wäre, die beiden Werte Lih-j) und L(h^) mit den Graden zu iden- 
tifizieren, in denen h x bzw. h 2 durch e gestützt wird. Die Einführung eines 
Begriffs des Stützungsgra&r ist aber hier überhaupt nicht intendiert, so daß 
die eben erwähnte Identifizierung unzulässig wäre. 

Mit dem obigen Stützungsbegriff wird ein komparatives Analogon 
einem Bestätigungsbegriff für deterministische Hypothesen eingeführt. Die Frage, 
ob es sich dabei um einen deduktivistischen oder um einen induktivistischen bzw. 
probabilistischen Bestätigungsbegriff handele, müßte aus den genannten Gründen 
als sinnlos zurückgewiesen werden : Der Begriff ist in dem Sinn nicht deduk- 
tivistisch, als das Definiens nicht nur Begriffe der deduktiven Logik, sondern 
außerdem numerische Relationen zwischen Zahlenwerten enthält. Er ist 
aber auch nicht einmal in einem indirekten Sinn probabilistisch, als er nicht 
auf Wahrscheinlichkeitsvergleichen basiert; denn Likelihoods sind ja keine 
Wahrscheinlichkeiten. 

Man kann die Regel auch noch anders formulieren, wenn man vorher 
den Begriff der Likelihood bei gegebenem ( statistischen Datum) e statt des 
bisher benützten Begriffs der absoluten Likelihood einführt. „Die Likeli- 
hood von h bei gegebenem e ist gleich r“ soll dasselbe besagen wie : „h ist 
in e eingeschlossen und L(h) — r“. (Man beachte, daß nur bei Vorliegen des 
Einschlußverhältnisses diese Likelihood überhaupt existiert.) Eine gewisse 
(triviale) Verallgemeinerung wird ferner dadurch erzielt, daß man eine 
Äquivalenzbedingung einführt: Wenn e [f- h 1 <r^ h 2 und die Likelihood von 
h^ bei gegebenem e gleich r ist, so soll auch die Likelihood von h 2 bei gegebenem 
e den Wert r haben. Die Alternativfassung der Regel lautet jetzt: Falls die 
Likelihoods von h x bei gegebenem e und von h 2 bei gegebenem e existieren, 
so stützt e die einfache kombinierte statistische Aussage h x besser als die ein- 
fache kombinierte statistische Aussage Z> 2 , wenn die Likelihood von h x bei 
gegebeben e die Likelihood von h 2 bei gegebenem e übersteigt. 

Die Regel LR^ muß noch für den kontinuierlichen Fall verallgemeinert 
werden. Dies ist ein rein technisches Problem. Es erscheint als ratsamer, 
diese Aufgabe zurückzustellen und bereits jetzt in eine wissenschaftstheore- 
tische Diskussion dieses Prinzips einzutreten. 

Anmerkung /. Es sei nochmals darauf hingewiesen, daß e nichts mit dem zu 
tun hat, was man häufig Erfahrungsdatum nennt. Das Datum e ist vielmehr selbst 
eine komplexe kombinierte statistische Proposition. Warum die Bezugnahme auf 
ein solches statistisches Datum erforderlich ist, wird im Verlauf der folgenden 
Überlegungen deutlich werden. 

Anmerkung 2 . Die hier formulierte Likelihood-Regel darf nicht verwechselt 
werden mit dem maximum-likelihood- Prinzip von R. A. Fisher. Das letzte 
Prinzip besagt inhaltlich etwas anderes und hat außerdem eine viel eingeschränk- 
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tere Verwendung, da es nur in der Theorie der Schätzung zur Anwendung gelangt. 
Wie bereits bemerkt, besagt auch das Likelihood- Prinzip von Sa vage etwas an- 
deres. 

In Hackings Formulierung des Likelihood-Prinzips fehlt der in der 
Bedingung (1) enthaltene Zusatz, welcher die Gleichheit der Erst- oder 
Zweitglieder der beiden Propositionen fordert. Daß diese Einschränkung 
erforderlich ist, soll durch das folgende Gegenbeispiel gezeigt werden: 

Es sei eine Urne mit 100 Kugeln gegeben, die entweder gelb ( G ) oder 
blau (B) gefärbt sind. Man wisse, daß die Urne nur drei mögliche Zusam- 
mensetzungen hat, wobei jeweils die relativen Häufigkeiten von G und B 
genau mit den Chancen, gelb oder blau zu ziehen, identisch sein mögen. Wir 
erhalten somit drei Verteilungshypothesen D t . (Im statistischen Datum ist 
also das A des ersten Gliedes mit D 1 v D 2 v D z identisch, während das E 
des zweiten Gliedes dasselbe besagt wie Gv B). 

Die drei möglichen Verteilungen lauten: 



A: 


90 G; 


10 B, 


A = 


2 G; 


98 B, 


A*- 


1 G; 


99 B. 



Die 6 einfachen kombinierten Aussagen, die nach Hinzutreten des Beob- 
achtungsberichtes über das Ergebnis einer einmaligen Ziehung gebildet 
werden können, kürzen wir in naheliegender Vereinfachung ab durch 
(D { ; G} und ( D t \B ). Wir erhalten die folgenden 6 Likelihoodwerte 
(links stehen die L-Werte bei Ziehung einer gelben, rechts die bei Ziehung 
einer blauen Kugel) : 

z«A; G» = £«A ; - <U 

L((D 2 ; G» = 0,02 L((D 2 ; B)) = 0,98 

L((B 3 ; G» = 0,01 L((D 3 ; B)) = 0,99. 

Der Vergleich des ersten linken Wertes mit dem zweiten rechten Wert 
ergibt: 

Nach der Hackingschen Formulierung der Likelihood-Regel müßte man sagen 
dürfen, daß unser Datum die kombinierte Aussage (D 2 ;B) besser stützt 
die als kombinierte Aussage G). Dies aber würde wiederum besagen, 
daß das Beobachtungsdatum B („eine blaue Kugel wurde gezogen “) die 
statistische Hypothese D 2 besser stützt als das Beobachtungsdatum G 
(„eine gelbe Kugel wurde gezogen“) die statistische Hypothese D 1 stützt. 
Dieses Resultat ist jedoch vom inhaltlichen Standpunkt aus inadäquat: Tritt näm- 
lich G ein, so ist D x 45mal ^plausibler* als sein nächster Konkurrent D 2 
(und 90mal plausibler als sein zweiter Konkurrent). Falls jedoch B eintritt. 
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so ist die (angeblich durch diesen Beobachtungsbefund besser gestützte) 
statistische Hypothese D 2 nicht einmal die ? plausibelste*. 

Hacking scheint übersehen zu haben, daß er mit der Einführung von 
kombinierten Propositionen eine nicht intendierte Verallgemeinerung des Likeli- 
hood-Argumentes erzeugt. In unserem Gegenbeispiel werden ja zwei Likeli- 
hoods miteinander verglichen, bei denen sowohl die statistische Hypothese 
als auch der Beobachtungsbefund verschieden sind. Dies war offenbar nicht 
bezweckt: Ein Likelihood-Vergleich zwischen verschiedenen miteinander 
konkurrierenden Hypothesen ist nur dann sinnvoll, wenn diese Hypothesen 
mit demselben Beobachtungsbefund konfrontiert werden. Unsere Zusatzbe- 
stimmung, die im zweiten Satz von Bedingung (1) enthalten ist, schließt 
diese durch das Gegenbeispiel getroffene unerwünschte Konsequenz aus. 

Die Erkenntnis, daß die Regel LR d in der angegebenen Einschränkung 
zu formulieren ist, deckt einen grundlegenden Irrtum Hackings auf. 
Hackings Bestreben geht nämlich dahin, sowohl die noch zu erörternde 
Einzelfall-Regel als auch eine hinreichende Bedingung für das komparative 
Stützungsverhältnis zwischen statistischen Hypothesen aus einem allge- 
meineren Prinzip abzuleiten. Dieses allgemeinere Prinzip glaubt er in der 
Likelihood-Regel gefunden zu haben. (Vermutlich aus diesem Grunde 
nennt er diese Regel ein Gesetz) Diese Annahme beruht jedoch auf einem 
Irrtum. Wie ein Vergleich der Likelihood-Regel auf der einen Seite mit der 
Einzelfall-Regel und dem statistischen Stützungsschluß auf der anderen 
Seite zeigen wird, enthält die Regel LR d nichts weiter als eine konjunktive Zu- 
sammenfassung dieser beiden Bestimmungen . Die Zusammenfassung zu einer 
einzigen Aussage wird durch den hier eingeführten Symbolismus ermöglicht, 
der es gestattet, mit kombinierten Aussagen zu arbeiten. 

Mit dem obigen Gegenbeispiel haben wir zugleich eine nachträgliche 
Begründung für die in der Anmerkung von l.a, (V), geäußerte Skepsis 
gegenüber Carnaps vierstelligem komparativen Bestätigungsbegriff ge- 
geben. Man kann zwar, wie auch wir dies oben auf S. 94 getan haben, diese 
vierstellige Relation M(h v e v b 2 , e 2 ) formal ansetzen. Vernünftige Anwen- 
dungen liefert dieser Begriff jedoch erst bei Spezialisierung zu dreistelligen 
Relationen: Man kann entweder verschiedene statistische Hypothesen 
aufgrund desselben Beobachtungsbefundes beurteilen oder ein und dieselbe Hypo- 
these für die Begründung der Bevorzugung einer singulären empirischen An- 
nahme gegenüber einer anderen benützen. Die Beurteilung verschiedener 
Hypothesen aufgrund verschiedener Beobachtungsdaten hingegen führt zu 
^statistischen Fehlschlüssen*. 

6. Die Leistungsfähigkeit der Likelihood-Regel 

6.a Die Einzelfall-Regel und ihre Begründung. Es soll jetzt gezeigt 
werden, daß die Likelihood-Regel zwei Arten des Räsonierens zusammen- 
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faßt. Erstens ermöglicht es diese Regel, Aussagen über die Bestätigung 
von statistischen Hypothesen aufgrund von Beobachtungsdaten zu formu- 
lieren. Zweitens läßt sich damit eine Regel über singuläre Voraussagen 
rechtfertigen, die man häufig verwendet und die vom intuitiven Standpunkt 
für fast selbstverständlich gehalten wird, ohne daß eine anderweitige Recht- 
fertigung dafür geglückt wäre. 

Die Diskussion wird zwei Nebeneffekte haben. Erstens wird darin eine 
nachträgliche Rechtfertigung für die Likelihood-Regel geliefert. Zweitens 
wird deutlich werden, daß es tatsächlich immer nur auf das Likelihoodver- 
hältnis und nicht auf die absolute Likelihood ankommt. 

Wir beginnen mit einer intuitiven Schilderung der Einzelfall-Regel E.R. 
Sie soll später durch eine präzisere Fassung ersetzt werden, so daß LR^ 
anwendbar wird. Es handelt sich um eine sehr plausible Regel für das 
jRaten im EinzelfalT. Vorausgeschickt sei, daß vom Goodman- Paradoxon 
abstrahiert werden muß. Alle erwähnten Eigenschaften seien im Good- 
manschen Sinn projektierbar. 

Es seien A, B und C bestimmte Dingmerkmale, x sei ein Objekt, für 
welches die Merkmale A, B und C sinnvoll sind, x sei aber in dem Sinn ein 
bezüglich A und B neues Objekt, daß man noch nicht untersucht hat, ob 
Ax oder Bx. Aufgrund der bisherigen Erfahrungen habe sich gezeigt, das 
folgendes gilt: (für (1) bis (4) mögen sehr viele Erfahrungen vorliegen, so 
daß die darin enthaltenen Annahmen als gesichert gelten können). 

(1) Alle Objekte der Art C haben entweder das Merkmal A oder das 
Merkmal B; 

(2) kein Objekt der Art C hat zugleich beide Merkmale A und B ; 

(3) die Objekte von der Art C sind häufiger zugleich von der Art A 
als von der Artü; 

(4) daß ein Objekt von der Art C die Eigenschaft A hat, ist (im proba- 
bilistischen Sinn) unabhängig davon, ob andere Objekte der Art C 
die Eigenschaft A oder die Eigenschaft B besitzen; 

(5) das Objekt x hat das Merkmal C. 

Unter diesen Annahmen wird man sagen: Die Hypothese, daß Ax , ist 
besser gestützt als die Hypothese, daß Bx (so daß man insbesondere ver- 
nünftigerweise eher erwarten wird, daß eine Prüfung von x ergibt, daß x 
die Eigenschaft A hat als daß es die Eigenschaft B besitzt). Die unmittel- 
bare Reaktion darauf dürfte vermutlich die sein zu sagen; „Dies ist doch 
selbstverständlich! Die Wahrscheinlichkeitstheorie soll u. a. dazu dienen, 
einen derartigen Schluß zu ermöglichen.“ Es soll nun gezeigt werden , daß 
alle naheliegenden Versuche , diese Regel %u begründen, fehlschlagen. 

Zunächst ein Beispiel zur Erläuterung: Gegeben sei eine Urne, die zahl- 
reiche Kugeln enthalte. Die meisten dieser Kugeln seien rot; die übrigen 
seien grün. (Für die folgenden Betrachtungen spielt es keine Rolle, ob die 
Wendungen „zahlreiche“ und „die meisten“ im Vagen belassen oder 
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quantitativ präzisiert werden, also etwa zu „10000“ oder „98%“). Es werde 
die statistische Hypothese als gültig vorausgesetzt, daß die Chance, eine 
rote Kugel zu ziehen, viel größer ist als die Chance, eine grüne Kugel zu 
ziehen. (Bezüglich der Frage der quantitativen Präzisierbarkeit dieser Hypo- 
these gilt dasselbe wie soeben.) Man beachte, daß diese Hypothese nicht 
etwa die logische Folge der Kenntnis ist, die wir über die Urne besitzen; 
darum das Wort „Hypothese“. Wir nehmen jedoch an, daß diese Hypothese 
nicht angefochten wird, sondern als gültig vorausgesetzt werden darf. (Sie 
wurde etwa nahegelegt und bestätigt durch die Beobachtung der Ergebnisse 
zahlreicher vorangehender Experimente : es wurden immer wieder einzelne 
Züge aus der Urne gemacht, nach jedem Zug die gezogene Kugel zurück- 
gelegt und gut gemischt; rot stellte sich viel häufiger ein als grün.) Worauf 
es jetzt ankommt ist dies : Es soll eine Voraussage über das Ergebnis des nächsten 
Zuges gemacht werden . Wir sagen, die beste Voraussage sei rot. Warum sagen 
wir das? Wenn wir die Regel E.R. als gültig voraussetzen, so ist diese 
Voraussage richtig. Denn es handelt sich dabei um eine korrekte Anwendung 
der Regel. Wie aber steht es mit der Regel selbst? Läßt sie sich weiter recht- 
fertigen ? 

Wir gehen methodisch folgendermaßen vor: Es werden vier mögliche 
Begründungsversuche der Regel E.R . diskutiert. Die ersten drei werden 
sich entweder als fehlerhaft oder als zirkulär erweisen. Nur die vierte Be- 
gründung mittels der Likelihood-Regel ist haltbar; sie setzt allerdings eine 
Präzisierung in der Formulierung der Regel E. R. voraus. Die ersten drei 
Begründungen könnte man auch als ein Thema mit drei Variationen auf- 
fassen; denn der Gedanke „was geschieht auf lange Sicht ?“ spielt dabei über- 
all eine entscheidende Rolle. Doch wird von diesem Grundgedanken so 
verschiedener Gebrauch gemacht, daß es der Klarheit dienlicher sein dürfte, 
drei Argumentationsweisen zu unterscheiden. 

(a) Die long-run- Rechtfertigung (Erfolgsrechtfertigung Reichenbachs ) 
von E. R. 

Weder die Frage, ob die Regel E. R. wirklich korrekt (und nicht nur 
plausibel) ist, noch die Frage, ob im obigen Beispiel von der Regel eine 
korrekte Anwendung gemacht wurde, soll hier erörtert werden. Vielmehr 
setzen wir ihre Gültigkeit voraus und diskutieren die Möglichkeit ihrer 
Rechtfertigung. Das Problem ist folgendes: Die obigen fünf ? Prämissen c 
enthalten außer Feststellungen über gewisse Merkmalszusammenhänge nur 
statistische Hypothesen, d. h. Hypothesen über Chancen, bzw. in intuitiver 
Formulierung: Hypothesen über relative Häufigkeiten auf lange Sicht. Es 
wird zu der Behauptung übergegangen, daß diese Prämissen die eine von 
zwei Hypothesen über die Eigenschaft des nächsten Falles besser stützen 
als die andere. Der Begriff der Stützung kommt in den Prämissen überhaupt 
nicht vor. Die versuchte Rechtfertigung muß einen Zusammenhang her- 
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stellen zwischen Chance (relativer Häufigkeit auf lange Sicht) einerseits, 
Stützung andererseits. Welcher Art ist dieser Zusammenhang ? 39 

Reichenbach gab die folgende Rechtfertigung, die ihm einleuchtend zu 
sein schien 40 . Er wählt das Beispiel eines gleichförmig gebauten Würfels und 
fragt, ob es vernünftiger sei zu raten, daß im nächsten Wurf eine Eins er- 
scheinen werde oder das eine von Eins verschiedene Ziffer geworfen werde. 
Seine Antwort lautet: Es ist vernünftiger, nicht-Eins zu raten; denn wenn 
das Experiment fortgesetzt wird, dann werden wir bei diesem Vorgehen auf lange 
Sicht eine größere Erfolgsaussicht haben . 

Zur Prüfung dieser Begründung muß zunächst die long-run- Regel L. R. R. 
selbst präzisiert werden. Dies kann in vollkommener Analogie zur Regel 
E.R. geschehen: Die Bedingungen (1) bis (5) sind wörtlich von oben zu 
übernehmen. Unter diesen Annahmen gilt: Wenn man für eine lange Folge 
von Objekten der Art C eine Vermutung auf stellen soll und dabei so oft wie möglich 
recht behalten will , so soll man jedesmal A raten . Kurz gesagt: Die fragliche 
Regel empfiehlt, unter den gegebenen Voraussetzungen stets nach dem 
Schema AAAAA ... zu raten. 

Der Begriff der langen Folge muß in einer gewissen Vagheit belassen 
werden. Er darf z.B. nicht mathematisch zum Begriff der unendlichen Folge 
präzisiert werden: „lange Folge" ist nicht im mathematischen, sondern — 
horribile dictu — durchaus im menschlichen Sinn zu verstehen. Das Operieren 
mit unendlichen Folgen ergibt keinen vernünftigen Sinn, wenn es um das 
menschliche Raten geht. 

Reichenbachs Gedanke (und ebenso der vieler Statistiker) scheint 
folgender zu sein: 

(a) „Die Regel L.R.R . ist offensichtlich richtig. Außerdem folgt die 
Regel E . R. aus ihr, also gilt auch diese Regel". 

Eine genauere Analyse zeigt allerdings, daß gar nicht eine Ableitung der 
einen Regel aus der anderen versucht wird, sondern daß man folgendes zu 
zeigen trachtet: 

(a*) „Die Gründe für die Rechtfertigung von L. R. R. können, falls man 
sie akzeptiert, auch zur Rechtfertigung von E. R. verwendet wer- 
den". 

Der Unterschied ist wesentlich: Hätten wir es nur mit (a) zu tun, so 
könnten wir uns auf eine Diskussion des angeblichen Ableitungsverhält- 
nisses beschränken und von der Frage der Rechtfertigung von L. R. R . ab- 
strahieren. Da wir es jedoch tatsächlich mit (a*) zu tun haben, müssen auch 

39 Der Leser wird ohne Mühe einen Zusammenhang herstellen können zwi- 
schen der Regel E.R. einerseits, dem sog. statistischen Syllogismus bzw. dem, 
was Hempel statistische Systematisierung nennt, andererseits. Dieser Punkt wird 
in Teil IV ausführlich zur Sprache kommen. 

40 [Prediction], S. 310. 
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die Rechtfertigungsversuche von L.R.R. selbst unter die Lupe genommen 
werden. 

Daß (a*) und nicht (a) benützt wird, zeigt sich deutlich an der von 
Reichenbach versuchten Erfolgsrechtfertigung . Danach führt die Befolgung 
dieser Regel auf lange Sicht zu größerem Erfolg als irgendeine andere 
Regel. 

Dagegen werden wir zweierlei einwenden : In der naheliegenden Inter- 
pretation ist diese Behauptung falsch. In einer anderen, etwas gekünstelte- 
ren Interpretation, setzt sie die Gültigkeit der Regel E.R. bereits voraus 
und kann nicht zur Rechtfertigung für diese dienen. 

Kritik an der naheliegenden Interpretation: Wenn in der Folge außer Ob- 
jekten mit dem Merkmal A auch solche mit dem Merkmal B Vorkommen 
(präziser formuliert: wenn auch B eine positive Chance hat), so können für 
viele Folgen andere Regeln auf lange Sicht erfolgreicher sein als die Regel 
L. R. R. Solche Regeln könnten z. B. manchmal starre Regeln sein, etwa von der 
Art: „Rate stets für die nächsten drei Objekte AAB“; bisweilen könnten 
% uf allsabhängige Regeln erfolgversprechender sein, etwa die folgende Regel : 
„Bevor man rät, würfle man mit einem unverfälschten Würfel; wenn man 3 
oder 5 würfelt, so rate man B, bei allen anderen Wurfergebnissen rate man A ec 
(abstrakter formuliert: Man macht das Raten jeweils selbst wieder abhängig 
vom Ausgang eines Zufallsexperimentes mit drei möglichen Ausgängen, 
für die man z. B. Gleichwahrscheinlichkeit annimmt; bei einem der drei 
Ausgänge rate man B , sonst A.) 

Dieser Gegeneinwand zeigt den folgenden gedanklichen Fehler in der 
Erfolgsrechtfertigung auf : Alles was man mit Recht annehmen kann, ist die Tat- 
sache , daß L. R. R. häufiger %um Erfolg als %um Mißerfolg führt. Von dieser An- 
nahme darf man aber nicht %u der weit stärkeren Behauptung übergehen , daß L. R. R. 
unter allen möglichen Regeln die erfolgreichste ist . Es mag viele Regeln geben, die 
häufiger zum Erfolg als zum Mißerfolg führen; L.R.R . braucht nicht die 
beste unter diesen Regeln zu sein. 

Da also bei dieser Deutung die Erfolgsrechtfertigung überhaupt nicht 
funktioniert, braucht die Frage ihrer Übertragbarkeit zur Rechtfertigung 
von E. R. nicht weiter untersucht zu werden. 

Kritik an einer gekünstelten Interpretation: Der Vertreter der Erfolgs- 
rechtfertigung wird möglicherweise den folgenden Rettungsversuch unter- 
nehmen 41 : Wir dürfen nicht einzelne lange Folgen (Folgen erster Ordnung) 
betrachten, sondern müssen zu Folgen zweiter Ordnung übergehen, d. h. 
wir müssen lange Folgen von langen Folgen betrachten. Hier wird die Regel L. R. R. 
größeren Erfolg haben als alle übrigen, z. B. als die Regel AAB , obzwar 

41 Von Reichenbach, der stets zu Folgen höherer Ordnung überging, kann 
man mit Sicherheit annehmen, daß er diesen Rettungsversuch unternommen hätte. 




Die Leistungsfähigkeit der Likelihood-Regel 



99 



diese letztere oder eine andere Regel für spezielle Folgen erster Ordnung er- 
folgreicher sein mag. 

Dreierlei läßt sich dem entgegenhalten: 

(1) Auch für diese Behauptung fehlt eine Begründung. Warum soll 
nicht für gewisse Folgen zweiter Ordnung eine von L. R. R. verschiedene 
starre Regel erfolgreicher sein als diese? 

(2) Selbst wenn nachweislich keine solche starre Regel existieren sollte, 
so könnte doch eine alternierende Regel auf lange Sicht besser sein, etwa 
eine Regel von der Art: Statt für jede Folge (von Folgen) nach dem 
Schema AAA ... zu raten, soll man zwar oft nach diesem Schema, manch- 
mal aber nach dem Schema AAB . . . raten. 

(3) Angenommen, es sei zutreffend, daß das Raten nach dem Schema 
AAA . . . für jede lange Folge zweiter Ordnung die erfolgreichste Politik 
ist. Ist es dann richtig, daß dieses Schema auch für eine bestimmte Folge 
erster Ordnung, welche Glied dieser Folge zweiter Ordnung ist, benützt 
werden soll ? Nun : Dies kann man nur behaupten, wenn man entweder be- 
reits die Regel E.R. zur Verfügung hat oder eine Rechtfertigung für den 
Übergang von LRR zu ER kennt. Dieser Übergang ist ja nur um eine Stufe 
nach oben verlagert worden ! 

(b) Die Minimax- Rechtfertigung. Die Terminologie ist von der Entschei- 
dungstheorie entlehnt. Es besteht aber ein wesentlicher Unterschied: In der 
Entscheidungstheorie ist von Nutzen die Rede, im vorliegenden Fall dage- 
gen nur vom Irrtum. 

Um die Rechtfertigung überhaupt formulieren zu können, muß eine 
kurze Anleihe bei der in Abschnitt 9 erörterten Testtheorie gemacht werden. 

Zu beachten ist, daß L.R.R . auf einer statistischen Hypothese beruht: 
Alle O s sind A oder B , niemals beides zugleich und häufiger A als B. Ob 
man eine derartige Hypothese annimmt, hängt von zweierlei ab, erstens 
von den empirischen Befunden und zweitens von der akzeptierten Test- 
theorie. Wenn 10000 C’s beobachtet wurden, ohne daß ein A vorkommt, so 
ist dieses Resultat zwar mit der Häufigkeitsthese formal verträglich. Doch 
wird jeder vernünftige Mensch (lies: jede vernünftige Testtheorie) sagen, 
daß die statistische Hypothese praktisch widerlegt worden sei. Im Augenblick 
machen wir keine genauere Annahme über die Natur der akzeptierten Test- 
theorie. Es genügt die allgemeine Feststellung: Eine solche Theorie zieht 
eine scharfe Grenze zwischen den bei gegebenen Daten zu verwerfenden 
und den nicht zu verwerfenden statistischen Hypothesen. In unserem Fall 
würde es sich darum handeln, die Klasse der langen Folgen von A’s undü’s in 
zwei Teilklassen zu zerlegen: jene, bei deren Eintreten die Häufigkeitsan- 
nahme verworfen wird, und jene, bei deren Eintreten sie nicht verworfen 
wird. Die erste wird die Klasse der unzulässigen Ergebnisse genannt, die zweite 
die Klasse der zulässigen Ergebnisse. Wir machen nun die weitere Annahme, 
die benützte Testtheorie sei in dem schärferen Sinn eine vernünftige Test- 
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theorie, daß sie von jedem zulässigen Ergebnis verlangt, es müßten darin 
mehr A’s als ü’s Vorkommen. 

Anmerkung. Damit im Leser keine Verwirrung entsteht, sei auf zwei Punkte 
hingewiesen: (1) Vorliegen eines unzulässigen Ergebnisses bedeutet nicht Falsi- 
fikation der Hypothese im formalen Sinn; denn der Begriff der Verwerfung ist 
relativ auf eine Testtheorie, und Verwerfung ist etwas anderes als Falsifikation 
(vgl. l.d). (2) Wenn von einer Häufigkeitsannahme ausgegangen, auf ihrer 
Grundlage eine Voraussage gemäß L.R.R. gemacht und schließlich festgestellt 
wird, das Ergebnis sei unzulässig, so ist dafür nicht die Regel L. R. R. verantwort- 
lich zu machen, sondern die ihrer speziellen Anwendung zugrundeliegende 
Häufigkeitsproposition. Wir beschränken uns auf zulässige Ergebnisse; das ist 
alles. Darin steckt natürlich wieder implizit die Annahme einer Testtheorie. 

Das Minimax- Argument besagt nun folgendes: Die Maximalzahl von 
Irrtümern, die Vorkommen können, wenn man L . R . R. befolgt, ist kleiner 
als die Maximalzahl von Irrtümern, die bei Befolgung einer anderen Regel 
Vorkommen können. L.R.R . minimalisiert den maximalen möglichen Irrtum 
(in technischer Sprechweise ausgedrückt: L.R.R. hat eine kleinere obere 
Irrtumsschranke als eine beliebige andere Regel). Darin liegt ihr Vorzug. [Übungs- 
aufgabe: Der Leser überlege sich, warum dies so ist. Wie groß ist der 
höchste Prozentsatz von Fehlern, den man (unter der gegebenen Voraus- 
setzung) begehen kann? Und wie groß ist der höchste Prozentsatz von 
Fehlern, zu dem etwa die Regel „rate stets nach dem Schema ,AAB‘“ 
führen kann ?] 

Wir unterscheiden zwei Fälle: 

(1) Viele werden bezweifeln, daß dies tatsächlich ein Vorzug von 
L. R. R. sei. Dann sind wir bereits am Ende. Ist diese Art der Rechtferti- 
gung der Regel nicht überzeugend, so braucht man die Frage, ob sie auf 
E. R. übertragbar ist, gar nicht mehr zu stellen. 

(2) Angenommen, diese Auszeichnung von L. R. R. wird für überzeu- 
gend gehalten. Dann ist das Minimax- Argument trotzdem nicht auf E. R. 
übertragbar. Wenn man nämlich nur eine einzige Voraussage macht, wie dies 
in E.R. ja geschieht, so kann man nicht mehr behaupten, die Voraussage 
nach der Regel „rate A“ habe eine kleinere obere Irrtumsschranke als irgend 
eine andere Regel. Denn alle Regeln haben ohne Ausnahme genau dieselbe obere 
Irrtumsschranke 1 : Wenn man nur einmal rät, ist genau ein Irrtum möglich. 

Das Minimax-Argument versagt also völlig. 

(c) Die axiomatische Rechtfertigung. Es ist schließlich sogar der Gedanke 
aufgetaucht, axiomatisch %u fordern , daß die long-run-Politik stets mit der Eintel- 
fall-Politik %us am menfallen soll. Man müßte sofort fragen, mit welchem Recht 
man eine solche Forderung aufstellen könne, wenn keine weitere Begrün- 
dung vorliege. Wir brauchen auf diese Frage nicht einzugehen; man kann 
nämlich das folgende Hackingsche Gegenbeispiel Vorbringen. Darin wird 
gezeigt, daß vernünftiges Raten im Ein^elfall nicht mit vernünftigem Raten 
auf lange Sicht ^usammenyuf allen braucht. Dies dürfte der entscheidende 
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Einwand gegen jede Art von Rückgriff auf L.R.R. zur Rechtfertigung 
von E.R. sein. Die Verwertung des Beispiels wird vereinfacht, wenn 
wir an dieser Stelle wieder eine Anleihe bei etwas Künftigem machen, 
diesmal aber nur bei der im nächsten Unterabschnitt diskutierten zweiten 
Verwendung der Likelihood-Regel für Aussagen über Stützungsverhält- 
nisse von statistischen Hypothesen. 

Wir vergleichen zwei Urnenbeispiele. Im ersten Beispiel liegt nur eine 
einzige Urne mit drei möglichen Häufigkeitsverteilungen vor. Im zweiten 
Beispiel haben wir es mit einer großen Folge gleichzahliger 42 Urnen mit 
denselben drei möglichen Häufigkeitsverteilungen zu tun. Das erste Bei- 
spiel dient zur Illustration eines bestimmten vernünftigen Ratens im Einzel- 
fall; das zweite Beispiel dient zur Illustration eines davon abweichenden ver- 
nünftigen Ratens auf lange Sicht. 

Die Urne des ersten Beispiels enthalte 1000 Kugeln. Wir kennen nicht 
die genaue Farbverteilung unter den Kugeln, wissen jedoch (aus welchen 
Gründen immer), daß nur drei mögliche Hypothesen h ly h 2 und h z in Frage 
kommen : 

(a) h x : 999 Kugeln sind weiß und eine ist schwarz ; 

(b) h 2 \ 2 Kugeln sind weiß und 998 schwarz; 

(c) h z : eine Kugel ist weiß und 999 sind schwarz. 

In allen drei Fällen wird die zusätzliche Voraussetzung gemacht, daß die 
Chance, weiß oder schwär zu ziehen, mit dieser Häufigkeitsverteilung 
äquivalent ist. 

Ein Zug wird gemacht und eine weiße Kugel wird gezogen. An dieser 
Stelle erfolgt die angekündigte Anleihe bei Späterem : h x ist aufgrund die- 
ser Daten die weitaus am besten gestützte Hypothese (intuitiv : nur wenn h x 
richtig ist, besteht eine hohe Chance, weiß zu ziehen ; bei Richtigkeit von h 2 
und h 3 ist die Chance, weiß zu ziehen, dagegen äußerst gering; Weiß jedoch 
hat sich ereignet). Daher wird die Vermutung am vernünftigsten sein, daß 
die Urne die in h x beschriebene Zusammensetzung hat. 

Im zweiten Beispiel haben wir es mit einer großen Anzahl von Urnen 
zu tun, die alle ebenfalls je 1000 Kugeln enthalten. Für jede Urne stehen wie- 
der dieselben drei Hypothesen zur Verfügung. Außerdem mögen wir wissen, 
daß wir aus der Gültigkeit einer Hypothese für eine Urne nicht auf die 
Gültigkeit dieser oder einer anderen Hypothese für eine andere Urne 
schließen können. Die Experimente sind die folgenden: Man beginnt mit 
der ersten Urne, zieht eine Kugel, stellt deren Farbe fest und rät, welche Be- 
schaffenheit die Urne hat (d.h. welche Hypothese für sie gilt), geht sodann 
zur nächsten Urne über, tut dort dasselbe und so fort. Unser Ziel ist es, 

42 Urnen, die Kugeln enthalten, nennen wir gleichzahlig, wenn sie gleich viele 
Kugeln enthalten. 
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möglichst viele richtige Voraussagen %u machen . (Die Aufgabenstellung wurde 
etwas elliptisch formuliert: strenggenommen handelt es sich wie im ersten 
Beispiel nicht um die Stützung von Folgen von Hypothesen, sondern um 
Folgen von Voraussagen über den nächsten Zug. Um die Sache nicht zu 
sehr zu komplizieren, verwenden wir nur die einfachere Situation des 
? Hypothesen-Erratens‘. Dies genügt, um den Unterschied zwischen ver- 
nünftiger Einzelfall-Politik und vernünftiger long-run-Politik zu verdeut- 
lichen.) 

Angenommen, wir gehen methodisch ebenso vor wie im ersten Fall. 
Dann müßten wir, wenn weiß gezogen wird, stets auf h x tippen, und wenn 
schwär^ gezogen wird, stets auf h z (und natürlich entsprechende Voraussagen 
für die nächsten Züge machen). Was aber , wenn B. h 2 für alle Urnen richtig 

ist ? Wir hätten dann eine ganz fatale Politik gewählt ; denn wir hätten immer 
falsch geraten! (Weniger katastrophal, aber noch immer schlimm genug 
wäre es, wenn für die meisten Urnen h 2 richtig wäre.) 

Hier ist es tatsächlich sinnvoll, eine Minimax-Überlegung anzustellen, 
durch welche das Maximalrisiko des falschen Ratens minimalisiert werden soll . 
Man wird eine gemischte Strategie wählen, zu der u. a. gehört, daß bei Zügen 
einer weißen Kugel bisweilen auf h x und bisweilen auf h 2 getippt werden 
muß. Die Berechnung führt zum überraschenden Resultat, daß das beste 
Verhältnis zwischen diesen beiden Möglichkeiten 1000/999 ist. Dies be- 
deutet: Viel besser als immer auf die Gültigkeit von h x zu schließen, 
wenn weiß gezogen wird, ist es, bei Ziehen von weiß eine (beinahe) unver- 
fälschte Münze zu nehmen, sie zu werfen und auf h x zu tippen, wenn sich 
Kopf ergibt, auf h 2 hingegen, wenn sich Schrift ergibt. 

Angenommen, jemand gehe auch im ersten Beispiel so vor: Wenn er 
eine weiße Kugel zieht, dann rät er nicht, daß h x richtig ist, sondern wirft 
eine Münze und entscheidet sich für h x oder h 2i je nachdem, ob er Kopf oder 
Schrift erhält. Jeder vernünftige Mensch wird den Betreffenden für verrückt 
halten. Im zweiten Fall aber ist solches Verhalten nicht unsinnig. Dort ist es 
sogar nachweislich die beste Strategie. 

Ein Gegenbeispiel genügt, um die axiomatische Forderung zusammen- 
brechen zu lassen. Die Überlegung: „Was auf lange Sicht vernünftig ist, 
das ist auch für den Einzelfall vernünftig“ ist nicht einmal auf Sand ge- 
baut. Sie erweist sich als eine nebelhafte Vorstellung. 

(d) Die Likelihood-Rechtfertigung. Die meisten Statistiker sind auf long- 
run-Überlegungen abonniert. Die vorangehenden Kritiken könnten daher 
geeignet sein, bei ihnen eine skeptische Haltung hervorzurufen, die etwa in 
den folgenden Worten ihren Niederschlag fände : In Fällen, wo wir es nicht 
mit langen Folgen von Voraussagen zu tun haben oder wo die Rechtferti- 
gung für eine long-run-Politik nicht auf den Einzelfall übertragbar ist, da 
kann man für einen Einzelfall überhaupt keine Voraussagen vornehmen, 
sofern nur Häufigkeitsdaten verfügbar sind. Kurz: „Wo es keine long-run- 
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Rechtfertigung gibt y da gibt es überhaupt keine“. Also wäre die Regel E.R. preis - 
%ugeben. 

Doch dies ist nicht überzeugend. Das Nichtfunktionieren der long-run- 
Rechtfertigung bildet keine hinreichende Basis, um die Regel E. R. als irra- 
tional abzutun. Dies dürfte frühestens dann geschehen, wenn ein überzeu- 
gendes Gegenbeispiel gegen diese Regel gefunden wäre. Bisher ist ein solches 
nicht gefunden worden. 

Es liegt daher nahe, den Spieß umzudrehen und die Einyelf all- Regel selbst 
yum Angelpunkt für das Verhältnis von Chance (relativer Häufigkeit auf lange 
Sicht) und Stützung yu machen. Tatsächlich werden wir die Einzelfall-Regel 
E. R. als Bestandteil in die Likelihood-Regel einbauen. 

Es sei nochmals daran erinnert, daß wir in diesem Punkt vom Vorgehen 
Hackings in einer wesentlichen Hinsicht abweichen. Hackings Intention geht da- 
hin, sowohl die Regel E. R. als auch die in 6. b zu erörternde Regel für den sta- 
tistischen Stützungsschluß aus einem allgemeineren Prinzip herzuleiten, welches in 
seinem “law of likelihood” ausgesprochen ist. Wie das Gegenbeispiel von 5. b ge- 
zeigt hat, schlägt dieser Verallgemeinerungs versuch fehl. 

Mit unserer Regel LR d beanspruchen wir dagegen nicht, ein allgemeines 
,Gesetz‘ gefunden zu haben, aus dem diese beiden Teilregeln herleitbar wären. 
Vielmehr ist die Likelihood-Regel nichts anderes als eine konjunktive Zusammenfassung 
der Regel E. R. und der Regel für den statistischen Stützungsschluß. 

Auch der Ausdruck „Regel“ sollte nicht mißverstanden werden. In beiden 
Fällen handelt es sich darum, eine hinreichende Bedingung dafür anzugeben, daß eine 
Annahme besser gestützt {bestätigt , begründet) ist als eine andere. Mittels E. R. kön- 
nen wir eine Aussage darüber machen, welche von mehreren singulären Voraus- 
sagen bei gegebener statistischer Hypothese am besten gestützt ist. Mittels der Regel für 
den statistischen Stützungsschluß können wir eine Aussage darüber machen, 
welche unter mehreren miteinander rivalisierenden statistischen Hypothesen bei 
gegebenem Beobachtungsbefund (und gegebenen statistischen Oberhypothesen) am 
besten gestützt ist. 

Die vorläufige Präzisierung der Regel E. R. soll nun an einem möglichst 
durchsichtigen Beispiel beschrieben werden. Das Beispiel kann als Pro- 
totyp für alle analogen Beispiele dienen. Gegeben sei eine Münze mit den 
beiden möglichen Resultaten K und S. Es sei W(K) = 0,9 d.h. es handle 
sich um eine Binomialverteilung mit dem Parameter # = 0,9 für K. Es gilt 
dann: I V(S) = 0,1. Das statistische Datum lautet: „Bei einem einfachen 
Versuch an der Anordnung X (Münzwurf) vom Typ T (einmaliges Werfen 
und Beobachten des Resultates) ist die Verteilung D der Chancen unter den 
beiden möglichen Resultaten W(K) = 0,9; l V(S) = 0,1. Der nächste ein- 
fache Versuch V vom Typ T an der Anordnung X liefert entweder K oder 
S “. In unserer Symbolik könnte dies so formuliert werden: 



e:((XyTyD);(XyV T yKvS))y 

wobei alle Buchstaben die angegebenen Bedeutungen haben. Man beachte, 
daß das zweite Glied inhaltsleer (tautologisch) ist. 
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Es werden zwei einfache kombinierte statistische Propositionen h x und 
h 2 betrachtet. Das erste Glied ist beide Male dasselbe wie in e. Das zweite 
Glied enthält in h x die konkrete Voraussage Kopf und in h 2 die konkrete 
Voraussage Schrift , also: 

bi:((X,T,Dy, (X, V t ,K)). 

h 2 :((X,T,Dy,(X,V T ,S)}. 

h x sowie h 2 sind offenbar beide im Datum e eingeschlossen. Die Likelihood 
von h x ist 0,9; die Likelihood von h 2 ist 0,1. h x wird nach der Regel LR^ 
durch e besser gestützt als h 2 . 

Anmerkung, In bezug auf das erste Glied sind alle drei Sätze : das Datum und 
die beiden Hypothesen, identisch. Unterschiede bestehen bezüglich des zweiten 
Gliedes, wobei die jeweiligen zweiten Glieder der beiden Hypothesen das zweite 
Glied von e zur Folge haben. Dies ist charakteristisch für ein Argument von der 
Art, welches zur Regel E . R. führt. 

Bei dem in 5.b erörterten statistischen Stützungsschluß wird genau die umge- 
kehrte Situation vorliegen: Identität aller Zweitglieder und Verschiedenheit der 
Hypothesen und des Datums in bezug auf die Erstglieder (aber ebenfalls wieder ein 
analoges Einschluß Verhältnis). 

Darin zeigt sich der Vorteil der Darstellung statistischer Aussagen als kombinierter 
Propositionen. Nur auf diese Weise wird es möglich, so heterogene Regeln wie 
E . R . und den Stützungsschluß in der Likelihood-Regel zusammenzufassen. 

Die Begründung ist noch nicht am Ende. Es soll ja folgendes gezeigt 
werden: Die Voraussage , daß K beim nächsten Versuch eintreten wird, ist 
besser gestützt als die Voraussage, daß S eintreten wird. Hierzu ist ein 
Rückgriff auf die komparative Stützungslogik von Abschnitt 2 erforderlich. 
Der Einfachheit halber bezeichnen wir das erste und das zweite Glied von 
h x durch j 1) und h^. h 1 ist dann eine Abkürzung für die Konjunktion l/f a 
h ( ^\ Analog kann h 2 durch h ( f a tijf wiedergegeben werden. Es gilt e |f- 
und außerdem nach dem eben gewonnenen Zwischenresultat: h { P a h^ I e 
<h?Ahf\e. 

Aufgrund des Theorems von S. 84 erhalten wir: h { 2 \ e < h^ | e. Dies 
war zu zeigen. 

Bei der Diskussion der Einzelfall-Regel müssen zwei Dinge säuberlich 
auseinandergehalten werden: das Problem der Rechtfertigung dieser Regel 
und das Problem der Bedingungen ihrer korrekten Anwendung. Nur mit dem 
ersten haben wir uns hier beschäftigt. Das zweite scheint zunächst kein 
Problem zu sein. Die scheinbare Problemlosigkeit wird jedoch nur durch 
unsere einfachen Beispiele nahegelegt. In Wahrheit treten genau hier das 
Hempelsche Problem der Mehrdeutigkeit der statistischen Systematisierung 
auf sowie weitere Schwierigkeiten. Da es sich dabei um einen außerordent- 
lich diffizilen Fragenkomplex sui generis handelt, verschieben wir die Er- 
örterung des zweiten Problems auf den Teil IV, wo die Diskussion in einen 
größeren Rahmen eingebaut werden soll. Es wird sich dort erweisen, daß 
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der Begriff der statistischen Erklärung als Explikandum preiszugeben ist 
zugunsten zweier anderer Explikanda: erstens der statistischen Begründung , 
welche einen Spezialfall des statistischen Schließens darstellt, nämlich die 
korrekte Anwendung der Regel E.R. y und zweitens die statistische Analyse y 
die selbst in einem weiteren oder übertragenen Sinn kein Argument dar- 
stellt, sondern eine Methode zur Gewinnung eines statistischen Situationsver- 
ständnisses bildet. 

6.b Der statistische Stützungsschluß im diskreten Fall und seine 
Rechtfertigung. Aufgrund von Beobachtungsbefunden soll eine Aussage 
darüber gewonnen werden, welche von mehreren statistischen Hypothesen 
(im üblichen Sinn) die am besten gestützte sei. Zunächst wird ein intuitives 
Beispiel gegeben und dann wird der Sachverhalt an dem quantitativen Bei- 
spiel geschildert, das im vorigen Unterabschnitt unter (c) gegen die axio- 
matische Rechtfertigung vorgebracht worden ist. 

Das von Hacking gebrachte Beispiel 43 lautet in etwas ausführlicher 
Schilderung: Jemand möchte ein Ciceronisches Fragment publizieren. Er 
weiß, daß das Fragment aus dem 13. Jahrhundert stammt. Dagegen ist ihm 
nicht bekannt, ob das Fragment originalgetreu ist oder nicht. Er muß dies 
erraten. Dabei stützt er sich auf ein weiteres Datum: Er findet in dem Text 
einen Sprachschnitzer, den man zwar gelegentlich auch bei klassischen Au- 
toren antrifft, jedoch äußerst selten. Mittelalterlichen Kopisten unterlaufen 
derartige Schnitzer dagegen recht häufig. Er vermutet daher, daß das Frag- 
ment nicht originalgetreu ist. 

Zunächst geben wir eine vorläufige Schematisierung des Schlusses 
(besserer Vergleichsmöglichkeit halber wählen wir dieselben Symbole wie 
bei der intuitiven Schilderung der Einzelfall-Regel in 5.a): C sei die Klasse 
der Fragmente mit Sprachschnitzern ; A sei die Klasse der unzuverlässigen 
Texte; B sei die Klasse der zuverlässigen Texte. Wir haben dann die folgen- 
den Prämissen: 

(1) Jedes C ist entweder ein A oder ein B und nicht beides zugleich; 

(2) die relative Häufigkeit der Elemente von C unter den Elementen von 
A ist größer als die relative Häufigkeit der Elemente von C unter den Ele- 
menten von B . 

Unter der Annahme, daß keine weitere Information zur Verfügung 
steht, scheint man behaupten zu dürfen : 

(3) Die Vermutung, daß dieses spezielle Element von C zur Klasse A ge- 
hört, ist besser gestützt als die Vermutung, daß dieses spezielle Element 
von C ein B ist. 

In (2) wird das vorausgesetzte relative Häufigkeitswissen festgelegt. Die 
Wendung von (3) : „dieses spezielle Element von C“ bringt das zusätzliche 
Tatsachenwissen zur Geltung, daß der vorliegende Text einen Sprach- 

48 [Statistical Inference], S. 54. 
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Schnitzer enthält. In (1) wird nur noch ausdrücklich die Trivialität formu- 
liert, daß jedes Fragment mit Sprachschnitzern entweder zuverlässig ist oder 
nicht und nicht beides zugleich. 

Ein oberflächlicher Vergleich mit dem Beispiel von 5.a könnte zu der 
Vermutung führen, daß es sich auch diesmal um einen Spezialfall der Regel 
E.R . handle. Dazu müßte jedoch die zweite Prämisse folgendermaßen 
lauten: Die relative Häufigkeit der Elemente von A unter den Elementen 
von C ist größer als die relative Häufigkeit der Elemente von B unter den 
Elementen von C. 

Dieser Unterschied ist wesentlich: Bei der Einzelfall-Regel bildet eine 
bestimmte statistische Hypothese den Fixpunkt, d.h. diese Hypothese wird 
als unbezweifeltes Datum vorausgesetzt, um eine Aussage darüber zu 
machen, welche von zwei möglichen singulären Prognosen besser gestützt 
ist. Bei dem hier vorliegenden statistischen Stützungsschluß ist das empi- 
rische Einzeldatum (der Beobachtungsbefund) bekannt, und es soll eine von 
zwei möglichen statistischen Hypothesen als die besser gestützte ausgezeich- 
net werden. 

Man beachte aber, daß diese Auszeichnung nicht dasselbe bedeutet wie Aus- 
wahl. Um die letztere geht es erst innerhalb der Testtheorie. 

Die intuitive Begründung für den obigen Schluß besteht in der folgen- 
den Überlegung : „Dieses C ist ein A“ ist besser gestützt denn „dieses C ist ein 
j ö“, weil der Satt, £ „dieses C ist ein B“ nur dann wahr wird , wenn sich etwas ereignet 
hat , was sich viel seltener ereignet als das , was sich ereignen muß y damit der Satt z 
„dieses C ist ein A“ wahr wird . Oder anders formuliert: Eine statistische 
Hypothese h x ist besser gestützt als eine statistische Hypothese h 2 , wenn h x 
zusammen mit einem Beobachtungsbefund impliziert, daß sich etwas 
ereignet hat, was sich weniger selten ereignet als das, was sich bei demselben 
Beobachtungsbefund ereignet, wenn h 2 richtig ist. 

Dieses Beispiel von Hacking ist zwar sehr interessant, trotzdem aber — 
zumindest vom didaktischen Standpunkt aus betrachtet — etwas irre- 
führend, da man zunächst gar nicht erkennt, wieso es sich im vorliegenden 
Fall überhaupt um die Beurteilung einer statistischen Hypothese handelt und 
nicht um eine historische Vermutung. Er muß dabei stillschweigend eine 
bestimmte singuläre Aussage der Alltagssprache als verklausulierte Formulierung 
einer statistischen Hypothese deuten. Eine solche Deutung kann man hier tat- 
sächlich, wie in vielen ähnlichen Fällen, vornehmen. Analog wie man die 
Feststellung: „dieser Würfel ist unverfälscht“ als sprachlich abgekürzte 
Wiedergabe einer statistischen Verteilungshypothese auffassen wird, so 
muß er den Satz: „dieses Manuskript M ist originalgetreu“ z.B. als Ab- 
kürzung der folgenden zu beurteilenden statistischen Nullhypothese 4 auf- 
fassen: „Die statistische Wahrscheinlichkeit, daß der Schreiber dieses Textes 
einen Fehler von der Art A beging, beträgt (höchstens) 1/1000“, während 
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die damit rivalisierende Fälschungshypothese zu deuten wäre etwa im Sinn 
von: „die Wahrscheinlichkeit, daß der Schreiber dieses Textes einen Fehler 
von der Art A beging, ist (ungefähr) 1/10.“ Der empirische Befund lautet 
in beiden Fällen : „der Schreiber von M beging einen Fehler von der Art 
A“. 

Wir gehen jetzt auf das Beispiel von 6.a, (c) mit den drei statistischen 
Hypothesen h v h 2 und h z zurück, ergänzen diese aber jetzt durch Heran- 
ziehung des Beobachtungsdatums zu einer kombinierten statistischen Aus- 
sage. Wir führen die Formalisierung nur so weit durch, als es zum Ver- 
ständnis notwendig ist. 

Es sei aber wenigstens ein Hinweis auf die präzise Fassung gegeben. X und T 
können diesmal ohne weiteres angegeben werden. Das verfügbare statistische 
Datum besage, daß eine der drei Verteilungen vorliege und daß weiß (iv) gezogen 
wurde. Das ist also die Aussage : 

«A, r, W(w) = 0,999 v W{w) = 0,002 v W{w) = 0,001); {X, V T> iv)). 

Bei der Wiedergabe der drei statistischen Hypothesen wird nur jeweils das dritte 
Glied der beiden konjunktiv verknüpften Aussagen explizit angeführt. 

h x \ W(w) — 0,999; weiß wird gezogen ; 

h 2 : W(w) = 0,002; weiß wird gezogen; 

h z : W(w) = 0,001; weiß wird gezogen . 

Da diese drei kombinierten Aussagen jeweils dasselbe Beobachtungs- 
datum mitschleppen und sich im übrigen nur bezüglich des ersten Gliedes, 
also die statistische Hypothese, unterscheiden, nennen wir sie der Einfach- 
heit halber selbst statistische Hypothesen. Alle drei statistischen Hypothe- 
sen sind im Datum e eingeschlossen. Der Beobachtungsbefund „weiß wird 
gezogen“ bildet diesmal den Fixpunkt, während drei statistische Hypothesen 
im engeren Sinn durchlaufen und relativ auf diesen Befund in bezug auf 
ihre Likelihoods beurteilt werden. Diese Likelihoods sind genau identisch mit 
den drei W-Werten , die in den ersten Gliedern angeführt sind. h 1 ist also auf- 
grund von LRd die am besten gestützte Hypothese, und zwar viel besser 
gestützt als h 2 und h z . 

Durch ein analoges Verfahren wie im vorigen Beispiel erhält man die 
beste Stützung für jene Hypothese, wonach die Urne 999 weiße und eine 
schwarze Kugel enthält. 

Wir nennen ein Argument von dieser Art einen statistischen Stüt^ungs- 
schluß . 

Wäre schwär \ gezogen worden, so wäre h z (und die entsprechende Hypo- 
these über die Zusammensetzung der Urne) am besten gestützt gewesen. 
Aber man könnte diesmal nicht hinzufügen : „und zwar wäre h z viel besser 
gestützt als die beiden übrigen Hypothesen“. Denn der Unterschied zu h 2 
ist diesmal recht gering. Hier zeigt sich deutlich, wie sich das Likelihood- 
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Verhältnis vcci Stützungsverhältnis widerspiegelt. Dies könnte man auch als 
eine nachträgliche Plausibilitätsbetrachtung zugunsten des Verfahrens an- 
sehen, die Größe des Likelihoodverhältnisses als ein Maß für den Unter- 
schied im Grad der Stützung anzusehen. 

Aufgabe. Es soll angedeutet werden, wie das eingangs gegebene Beispiel mit 
dem Cicero-Fragment in präziser Weise zu rekonstruieren wäre. 

Wir machen nochmals ausdrücklich auf zwei Dinge aufmerksam: 

(1) Der Begriff der Likelihood wurde zwar mittels des Begriffs der 
Chance definiert; doch handelt es sich beim Likelihood-Vergleich, auf den 
der relative Stützungsbegriff zurückgeführt wird, nicht um einen Vergleich 
von Wahrscheinlichkeiten. 

(2) Hypothesen mit geringer Likelihood werden nicht als schlecht ge- 
stützt bezeichnet. Obwohl der Begriff der Likelihood auf isolierte Aussagen 
(genauer: auf geordnete Satzpaare) angewendet wird, gründet sich jede 
Aussage über die Stützung von Hypothesen auf den Vergleich von Likeli- 
hoods. Nur wenn eine rivalisierende Alternativhypothese vorhanden ist , kann eine 
S tüt^ungs aus sage überhaupt formuliert werden . Das Grundprädikat für eine sol- 
che Aussage lautet nicht: „ist in dem und dem Grad gestützt“, sondern: 
„ist besser gestützt als“. 

Dieser Sachverhalt wird sich in der Testtheorie wiederholen. Nach der 
Likelihood-Testtheorie ist eine Hypothese nicht bereits dann zu verwerfen, 
wenn sie eine geringe Likelihood besitzt, sondern erst dann, wenn eine andere 
Hypothese mit einer größeren Likelihood \ur Verfügung steht . 

Im obigen Beispiel hatten wir es mit drei miteinander rivalisierenden 
statistischen Hypothesen zu tun. Häufig sind wir bloß vor die Frage ge- 
stellt, welche von zwei statistischen Hypothesen besser gestützt sei als die 
andere. Auf der anderen Seite gilt dieselbe Art von Betrachtung natürlich 
auch für eine beliebige endliche Anzahl voneinander abweichender statisti- 
scher Alternativhypothesen. 

Noch interessanter dürfte die Feststellung sein, daß der statistische 
Stützungsschluß auch dann anwendbar wird, wenn eine unendliche — abzahl- 
bare oder sogar überab^ählbar unendliche — Anzahl miteinander rivalisierender 
statistischer Hypothesen daraufhin überprüft werden soll, welche die am besten ge- 
stützte Hypothese ist . 

Zur Illustration diene eine unendliche Gesamtheit von Binomialver- 
teilungshypothesen. Eine Münze werde «-mal geworfen und liefere k-mzl 
K. Es sei bekannt, daß die Würfe voneinander unabhängig sind. („Es ist 
bekannt“ heißt hier wie in allen anderen Fällen: „es wird als gesichert 
vorausgesetzt und nicht in Frage gestellt“. Selbstverständlich kann, wie wir 
wissen, jede im statistischen Datum enthaltene statistische Oberhypothese 
von dieser Art bei Vorliegen geeigneter Beobachtungsresultate auf höherer 
Ebene wieder in Frage gestellt werden; doch darum geht es hier nicht.) 
Frage: Welche statistische Hypothese W{K ) = p ist am besten gestützt ? 
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Wegen der Unabhängigkeitsvoraussetzung wissen wir, daß wir es mit 
einer Binomialverteilung zu tun haben. b(x; n,p) bezeichnet die Chance, 
daß in n unabhängigen Würfen mit dieser Münze x-mal K geworfen wird, 
sofern die Wahrscheinlichkeit für das Auftreten von K bei einem Wurf 
gleich W(K ) = p ist. Es gilt (vgl. Teil 0, (46)): 

b(x; n,p ) = {f)p x (1 —p) n ~ x - 

Wir gehen methodisch folgendermaßen vor : Zunächst wählen wir für n 
den fest vorgegebenen Wert aus unserem Beobachtungsbefund. Wir betrachten 
nun unendlich viele einfache kombinierte Propositionen h vy wobei p alle 
reellen Zahlen von 0 bis 1 durchläuft, x, die Anzahl der Erfolge (A-Würfe), 
ist jedesmal eine variable Größe. (Um einer Hyperformalisierung zu ent- 
gehen, schreiben wir diesmal die beiden Glieder umgangssprachlich an). 
h v : ((die Verteilung der Chancen für x Resultate der Art K bei n Würfen 
mit dieser Münze ist genau b(x; n,pf)\ (bei dieser speziellen Folge von 
n Würfen mit dieser Münze ergibt sich genau k-mal A» 44 . 

Auch bezüglich dieser kontinuierlichen Mannigfaltigkeit von kombinierten 
statistischen Hypothesen können wir aufgrund von LRj sagen, daß die 
am besten gestützte Hypothese diejenige ist, welche die größte Likeühood 
besitzt. Auf Grund der oben erwähnten Formel für die Binomialverteilung 
kann man mathematisch beweisen : Die Chance, daß sich bei n Würfen mit 
dieser Münze k-m&l K ergibt, ist genau dann maximal, wenn p = kjn. (Dies 
war natürlich auch intuitiv zu erwarten.) In Analogie zum oben geschilder- 
ten Verfahren schließen wir, daß die am besten gestützte statistische Hypo- 
these über die Chance von K lautet: W(K) = kjn. 

Für die strenge Anwendung der Likelihood-Regel beachte man folgendes: 
Das statistische Datum ist in bezug auf das zweite Konjunktionsglied mit dem 
zweiten Konjunktionsglied aller Hypothesen h p identisch; denn dieses schildert 
den Beobachtungsbefund. Das erste Konjunktionsglied schließt die ersten Glieder 
aller Hypothesen h p ein; es bildet also eine Klasse von überabzählbar unendlich 
vielen Verteilungshypothesen, worin nur n fest, dagegen sowohl x als auch p 
variabel ist ( p durchläuft alle reellen Zahlen von 0 bis 1 und x alle natürlichen 
Zahlen von 0 bis «). 

6.c Übergang zum stetigen Fall. Um den stetigen Fall einbeziehen zu 
können, erscheint es als zweckmäßig, mit dem neuen Begriff der Likelihood- 
funktion zu operieren. Wir verwenden auch dafür das Symbol „A“. Eine 
Verwechslung mit dem gleichnamigen Symbol von 6. b wird dadurch aus- 
geschlossen, daß der neue Funktor zweistellig ist. Die Darstellung ist so all- 
gemein gehalten, daß sie den diskreten Fall als Spezialfall einschließt. 

Damit der Formalismus nicht übermäßig kompliziert wird, verzichten 
wir diesmal auf die Verwendung des Begriffs der kombinierten Aussage 

44 Man beachte, daß die Rede von einer Verteilung in den ersten Gliedern der 
Hypothesen h 9 nur dadurch Sinn bekommt, daß x variabel ist. 
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und geben eine umgangssprachliche Beschreibung dessen, was das statisti- 
sche Datum beinhaltet. 

Die experimentelle Anordnung X und der Versuchstyp T seien vorge- 
geben und sollen für die folgenden Überlegungen festgehalten werden, ohne 
daß wir sie ausdrücklich erwähnen. /(x) sei die Wahrscheinlichkeitsvertei- 
lung (diskreter Fall) bzw. die Wahrscheinlichkeitsdichte (stetiger Fall) ; die 
kumulative Verteilungsfunktion werde wieder durch F(x) dargestellt. A sei 
die Klasse der Wahrscheinlichkeitsverteilungen, welche im statistischen Da- 
tum angeführt ist (d. h. die nicht zu dieser Klasse gehörenden Wahrschein- 
lichkeitsverteilungen sollen außer Betracht bleiben). Für die Elemente die- 
ser Klasse machen wir die spezielle Voraussetzung, daß sich diese Wahr- 
scheinlichkeitsverteilungen nur durch einen Parameter # einer Menge M 
unterscheiden. 

Wir erläutern den Sachverhalt am Beispiel der Normalverteilung. Die 
Dichtefunktion lautet : 

N(x;fi,o 2 )= — Ti=~ e 2 ' a ' — oo < x < + oo (vgl. Teil 0,(100)). 

CT J/ 2 TZ 

Es ist dies eine einstellige Funktion mit den beiden Parametern [jl (Mit- 
tel) und or 2 (Varianz). Derartige Parameter fassen wir stets zu einem k- 
dimensionalen Vektor $ zusammen. In unserem Fall ist # zweidimensional, 
nämlich: $ = (ja, g 2 ). Daß es sich um Parameter handelt, besagt bei inhalt- 
licher Deutung im vorliegenden Fall, daß wir in jeder konkreten Anwen- 
dung fl und a 2 als gegeben annehmen und die Wahrscheinlichkeiten mittels 
der so entstehenden einstelligen Funktion N(x) berechnen. 

Bei der Likelihood-Betrachtung müssen wir den Spieß umdrehen. Hier 
tritt an die Stelle der Variablen x ein festes experimentelles Resultat x 0 . Die 
Parameter, bzw. in der vektoriellen Zusammenfassung der Vektor #, über- 
nehmen jetzt die Rolle von Variablen, die über die Elemente von M laufen. 

Wenn n der Umfang der Stichprobe ist, welcher wir das Resultat ent- 
nehmen, so können wir zunächst eine ( n + l)-dimensionale Funktion 

F: R n x [0, 1] 

als gegeben ansehen, aus der wir sämtliche mit dem statistischen Datum 
verträglichen V erteilungsf unktionen 

F(-,&) :R"^[0,1] 

gewinnen, indem wir alle Wahlen $ £ M vornehmen. Mit F(*, d) ist die 
zugehörige Wahrscheinlichkeitsdichte (Wahrscheinlichkeitsverteilung) 
F(*,d) eindeutig bestimmt. Wenn x 0 das feste experimentelle Resultat ist, 
so entsteht durch Vertauschung der Rollen von Variablen und Parameter 
(# jetzt als Variable, x 0 als fester Parameter) die Likelihood-Funktion: 

L('&\x 0 )=f(x 0 ,-):M»[0, 1]. 
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Kehren wir nun wieder zum Likelihood- Argument zurück! Für zwei 
beliebige Elemente und $ 2 aus M erhalten wir zwei miteinander kon- 
kurrierende Hypothesen h x und h 2 über die wahre Gestalt von /(x 0 , $). 
Zur Beantwortung der Frage, welche der beiden Hypothesen die größere 
Plausibilität besitzt, konstruiere man für diese beiden Werte den Likelihood - 
Quotienten 

i|*o) 

| x 0 ) ’ 

der genau dann größer als 1 ist, wenn L{ß\ | x 0 ) > L(ß 2 | x 0 ). Damit haben 
wir bereits die Anknüpfung an die frühere Likelihood-Definition (bzw. die 
Likelihood-Regel) der Stützung gefunden. Im vorliegenden Fall würden 
wir also sagen : Die Hypothese h 1 ist besser gestützt als h 2 , weil der entspre- 
chende Likelihood-Quotient größer ist als 1 . 

Wir können nun noch einen Schritt weiter gehen und unter allen # 6 M 
dasjenige aufzufinden versuchen, dessen zugehörige Dichte (Wahrschein- 
lichkeitsverteilung) durch das experimentelle Resultat x 0 am besten gestützt 
wird. Ein solches existiert genau dann, wenn die Likelihood- Funktion 
L(ß | x 0 ) ein Maximum besitzt. Denn wenn L(- | x 0 ) für einen maxi- 
malen Wert annimmt, gilt für alle # £ M : 

L($ |x 0 ) ~ * 

(Ob und für welchen Wert dies der Fall ist, kann nach den Standardver- 
fahren der Differentialrechnung ermittelt werden.) 

Mit dieser letzten Überlegung ist der Zusammenhang hergestellt wor- 
den zu der von R. A. Fisher entwickelten Methode der Maximum-Likelihood 
zur Punktschätzung von Parametern. Daß ein solcher Zusammenhang be- 
steht, war von vornherein zu erwarten : Schätzungen bilden ja einen Spezial- 
fall von hypothetischen statistischen Vermutungen und können daher so- 
wohl unter dem Gesichtspunkt der Stützung als auch unter testtheoretischen 
Gesichtspunkten behandelt werden. Daß die Schätzungstheorie dennoch zu 
speziellen wissenschaftstheoretischen Fragen führt, hat, wie noch zu zeigen 
sein wird, hauptsächlich zwei Gründe : Erstens versteht man unter Schätzun- 
gen häufig nicht theoretische Vermutungen, sondern praktische Entschei- 
dungen oder Handlungen von bestimmtem Typus. Zweitens konkurriert auch 
im theoretischen Fall der Gesichtspunkt der besten Stützung mit anderen 
Gütekriterien (nämlich mit solchen Kriterien, die wir in Abschnitt 10 Opti- 
malitätsmerkmale auf lange Sicht nennen werden). 

Im gegenwärtigen Zusammenhang begnügen wir uns damit, einen grund- 
sätzlichen Unterschied zwischen der Maximum-Likelihood-Methode und 
dem Likelihood-Stützungsargument hervorzukehren. (Der Unterschied 
bleibt bestehen, wenn die später zu schildernde Likelihood-Testtheorie zum 
Vergleich herangezogen wird.) Nach der Maximum-Likelihood-Methode 
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ist derjenige Wert als bester Schätzwert anzusehen, für den die Likeli- 
hoodfunktion ihr Maximum annimmt. Der gesamte übrige Verlauf der Likeli- 
hoodfunktion wird dabei vollkommen vernachlässigt . In der komparativen Stützungs- 
relation „h x ist besser gestützt als h 2 c gelangt demgegenüber der Gesamt- 
verlauf der Likelihoodfunktion zur Geltung, da ja für zwei beliebige Argu- 
mente und #2 die entsprechenden statistischen Aussagen miteinander ver- 
glichen werden können. Der Gedanke, die ganze Likelihoodfunktion in 
Betracht zu ziehen, taucht bereits bei R. A. Fisher gelegentlich auf 45 . Nach- 
drücklich wird die Forderung von G. A. Barnard et al. in [Likelihood- 
Inference] vertreten; ähnlich auch von H. Diehl und D. Sprott in 
[Likelihood]. Man kann diese Forderung in die Hackingsche Stützungs- 
relation einbauen, die im stetigen Fall auf dem Likelihoodquotienten 
basiert. 

Wir wollen uns diese Weiterentwicklung der Likelihood-Idee veran- 
schaulichen. Dazu betrachten wir eine Folge von Likelihoodfunktionen 
A x , A 2 , . . ., A n , . . ., die alle an der Stelle ihr Maximum haben; und zwar 
soll dieser maximale Wert jedesmal derselbe sein. (Die letztere Zusatzan- 
nahme machen wir nur der größeren Anschaulichkeit wegen.) Die Funk- 
tionen unterscheiden sich durch zunehmende Steilheit ihrer Graphen in der 
Umgebung von : JL X (bzw. der Graph dieser Funktion) ist also nach un- 
serer Annahme die flachste Kurve, A 2 ist bereits etwas steiler, . . . , L n 
ist wesentlich steiler als Aj usw. (Mit wachsendem Index haben also die 
Kurven in der Umgebung des Maximums zunehmend schmalere Buckel.) 
Wir betrachten jetzt weitere, in der Nähe von gelegene mögliche Werte 
des unbekannten Parameters #, etwa und & k . Die Maximum-Likelihood- 
Methode gestattet keinerlei Differenzierung zwischen all diesen Fällen; 
denn stets liefert ja den maximalen A-Wert und ist daher nach dieser 
Methode zu wählen. Wenn wir dagegen die Likelihood-Quotienten für 
und d'i (oder # fc ) bilden, so ergibt sich bei jedem Übergang von einer Funk- 
tion L t unserer Folge zur Funktion A i+1 eine zunehmende Verschärfung der 
Aussagekraft des komparativen Stüt^ungsbegpiffs. Dies folgt aus unserer An- 
nahme über die Kurvengestalten. Wegen der relativ flachen Gestalt von 
A-, ist die statistische Hypothese mit dem Parameter nur geringfügig 
besser gestützt als die mit dem Parameter (ß k ) ; für L n hingegen ergibt 
sich bereits ein beträchtlicher Unterschied. 

Dieser Unterschied kommt allerdings erst dann zur Geltung, wenn man 
den Likelihood-Quotienten auch als Maß dafür betrachtet, daß eine Hypo- 
these mehr oder minder gut gestützt ist als eine andere. (Der Leser veranschau- 
liche sich den am obigen Beispiel geschilderten Sachverhalt durch ein Dia- 
gramm, welches die Graphen von Likelihoodfunktionen verschiedener 
Steilheit, aber mit demselben Maximum enthält). 

45 So z.B. in [Two new properties], S. 300. 
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Wir sind hier von einer rein theoretischen Gegenüberstellung ausge- 
gangen. Die Maximum-Likelihood-Methode ist demgegenüber heute ge- 
wöhnlich in entscheidungstheoretischer Verkleidung anzutreffen, d. h. sie 
wird als Entscheidungsregel formuliert. Dazu benötigt man eine Verlustfunk- 
tion V (#', $), deren zweite Argumentwerte über die möglichen wahren 
Werte des Parameters laufen, während der erste Argumentbereich aus den 
möglichen Schätzwerten (sog. Punktschätzungen) des Parameters besteht. 
Die Funktion V ist so beschaffen, daß nur dann der Verlust gleich 0 ist, 
wenn der Schätzwert mit dem wahren Wert # übereinstimmt. In den 
übrigen Fällen tritt dagegen ein positiver Verlust ein. (Der Einfachheit 
halber kann man annehmen, daß für sämtliche Fehlschätzungen der kon- 
stante Verlust k > 0 auf tritt.) Die Maximum-Likelihood-Regel läßt sich 
dann so aussprechen: „ Wähle auf solche Weise , daß der Verlust genau dann 
minimal wird , wenn der Parameter mit maximalem Likelihoodwert der wahre Para- 
meter ist! (C Dieser Imperativ enthält offenbar keine theoretische Aussage 
mehr, sondern bildet eine praktische Empfehlung. 

6.d Wahrscheinlichkeitsverteilung und Likelihoodfunktion (, Plau- 
sibilitätsverteilung 4 ). Wir knüpfen hier vor allem an die sehr illustrative 
Arbeit von H. Diehl und D. Sprott, [Likelihoodfunktion], an. Wenn wir 
von Verteilungen sprechen, so setzen wir stets voraus, daß die möglichen 
Beobachtungsbefunde in numerischer Charakterisierung vorliegen. Dies 
läßt sich durch Einführung geeigneter Zufallsfunktionen immer erreichen. 
Verteilungen sind dann Verteilungen dieser Funktionen; das ursprüngliche 
Wahrscheinlichkeitsmaß wird hierbei durch sein Bildmaß ersetzt. Diese 
Voraussetzung soll wieder nur dazu dienen, die Sprechweise zu verein- 
fachen. 

M sei der Raum der möglichen Parameter #. Wenn x 0 einen Beob- 
achtungsbefund darstellt, so ist die zugehörige Likelihoodfunktion de- 
finiert durch: 

L (d | x 0 ) = Df /(x 0 ; &), 

mit / als Wahrscheinlichkeitsverteilung (diskreter Fall) oder Wahrschein- 
lichkeitsdichte (kontinuierlicher Fall). Wenn man f als eine zweistellige 
Funktion von x und § auffaßt, so erhält man daraus bei gegebenem # eine 
Funktion von x, die eine Wahrscheinlichkeitsverteilung ausdrückt, und 
bei gegebenem x eine Funktion von $, die eine Likelihoodfunktion bildet. 
Dieser Sachverhalt wird bisweilen folgendermaßen wiedergegeben: Die 
Likelihoodfunktion leistet nach einem Zufallsexperiment einen ähnlichen 
Dienst wie die Wahrscheinlichkeitsverteilung vor der Durchführung des 
Experimentes. 46 In der Tat: Ist der Parameter $ 0 bekannt, so können wir 
aufgrund einer Kenntnis der Funktion /(x; # 0 ) von x eine Wahrscheinlich- 



46 So z.B. H. Diehl u. D. Sprott, [Likelihoodfunktion], S. 114. 
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keitsaussage über die beobachtbaren Ausgänge des Zufallsexperimentes 
machen. Liegt dagegen der Beobachtungsbefund x 0 vor, so bildet die 
Likelihoodfunktion L(fl | x 0 ) ein objektives Ungewißheitsmaß für den un- 
bekannten Parameter Sie könnte daher auch als Plausibilitätsfunktion, 
Vertrauensfunktion oder S tüt^ungsfunktion für $ bezeichnet werden. 

Diese schematische Gegenüberstellung zwischen vorexperimenteller 
und nachexperimenteller Situation geht allerdings im ersten Fall von einer 
Fiktion aus: Der Parameter # ist uns ja niemals bekannt. Wir können über 
ihn nur unverifizierbare (und nicht einmal empirisch widerlegbare) Hypo- 
thesen aufstellen. Dies unterstreicht jedoch um so mehr die Wichtigkeit 
dieser Funktion L, welche aus einem Beobachtungsbefund eine äußerst 
wichtige Information über den unbekannten Parameter herausholt. Die 
Likelihood-Schule geht sogar soweit zu behaupten, daß diese Funktion die 
gesamte in der Beobachtung steckende Information über den unbekannten 
Parameter enthält 47 . Selbst wenn dies keine Übertreibung sein sollte, wäre 
eine derartige Schilderung der Situation doch recht irreführend. Denn was 
für statistisch relevante Informationen wir aus einer Beobachtung heraus- 
holen können, hängt u. a. davon ab, mit welcher stillschweigend vorausgesetzten 
statistischen Oberhypothese wir an die Beobachtung herantreten . Diese Oberhypo- 
these bestimmt die Form der (zweistelligen!) Funktion /. Nach der in 5.a 
eingeführten Sprechweise bildet sie das erste Konjunktionsglied des sta- 
tistischen Datums. 

Diehl und Sprott geben eine gute geometrische Veranschaulichung des 
Unterschiedes zwischen Wahrscheinlichkeitsverteilung und Likelihood- 
funktion. Dazu spanne man im dreidimensionalen Raum ein Cartesisches 
Koordinatensystem auf. Die erste Koordinate sei die x-Koordinate, die 
zweite die ^-Koordinate; die Werte der Funktion /(x; ff) tragen wir für 
jeden Punkt der x-$-Ebene in der dritten Koordinatenrichtung auf. Da- 
durch erhalten wir eine Fläche, die wir das f(x; ff)-Gebirge nennen wollen. 
Für jeden bestimmten Wert & 0 aus M können wir dieses /-Gebirge mit der 
Ebene # = # 0 zum Schnitt bringen. Dadurch gewinnen wir die zu diesem 
Parameter gehörige Wahrscheinlichkeitsverteilung/^; $ 0 ) (genauer natür- 
lich: den Graphen dieser Funktion). Liegt hingegen ein Beobachtungsbe- 
fund x 0 vor, so können wir dieses /-Gebirge mit der Ebene x = x 0 zum 
Schnitt bringen und erhalten den Graphen der Likelihoodfunktion L($; x 0 ). 
Wenn wir den Ausdruck „Verteilung“ nicht von vornherein probabilistisch 
festlegen, so können wir sagen, daß auf diese Weise eine Plausibilitätsver- 
teilung für den unbekannten Parameter # im Lichte des Beobachtungsbe- 
fundes x 0 gewonnen worden ist. 

Eine solche Charakterisierung kann allerdings Anlaß zu sprachlichen 
Mißverständnissen geben. Denn ein bestimmter Wert L(#;x 0 ) ist zwar 

47 Diehl u. Sprott, a. a. O. S. 115. 
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eine Wahrscheinlichkeit für das Ereignis x 0 , nicht jedoch eine Wahrschein- 
lichkeit für den Parameter $\ Es wurde bereits hervorgehoben, daß die 
Regeln der Wahrscheinlichkeitsrechnung für die Likelihoodwerte nicht 
gelten. Wir können jetzt noch darüber hinausgehend sagen: Während für 
Wahrscheinlichkeiten Operationen wie Produkt-, Summen- und Differenz- 
bildung definiert sind, ist dies hier nicht der Fall. Das Produkt, die Summe 
sowie die Differenz von Likelihoodwerten verschiedener # (also z. B. 

1 * 0 ) X L($ 2 | x 0 ) etc.) haben überhaupt keine erkenntnistheoretische oder 
statistische Bedeutung. 

Wenn wir das Supremum einer bestimmten Likelihoodfunktion L mit 
sup L($ | x) abkürzen, so erhalten wir dadurch für jedes x die supremale 

Wahrscheinlichkeit von x /nämlich sup /(x; $)\ . Mit Hilfe dieses Begriffs 
\ OcM ] 

können wir die auf das Intervall [0,1] normierte sog. relative Likelihoodfunk- 
tion 



R(&\x) 



L(fl 1 x) 
sup L($ | x) 



erhalten (verstanden als einstellige Funktion R(- 1 x) mit dem Parameter x). 
Dadurch, daß R für jedes x und beliebiges # angibt, wie wahrscheinlich x 
unter der Voraussetzung # im Vergleich zur supremalen Wahrscheinlichkeit 
von x ist, liefert R ein relatives Plausibilitätsmaß für den unbekannten Para- 
meter, d. h. eine Angabe darüber, wie ^plausibel* $ im Verhältnis zum 
? plausibelsten* Parameter ist. Wenn man überhaupt den Ausdruck „Plau- 
sibilitätsverteilung“ verwenden will, so wäre es daher zweckmäßiger, diese 
Funktion R statt der ursprünglichen Funktion L als Plausibilitätsverteilung 
(oder: Vertrauensverteilung, Stützungsverteilung) über M zu bezeichnen. 

Die Funktion R hat neben diesem praktischen den theoretischen Vorteil, 
daß sich die Likelihoodfunktionen nunmehr %u systematischen Äquivalenzklassen 
%usammenfassen lassen: Für jede Funktion L wird die zugehörige Äquivalenz- 
klasse K l gebildet aus allen Likelihoodfunktionen von der Gestalt k • L 
und cp (x) • L mit einer beliebigen Konstanten k oder einer vom Beobach- 
tungsbefund x abhängenden Funktion cp (x). Alle derartigen Funktionen, 
die zu ein und derselben Äquivalenzklasse gehören, führen zur selben rela- 
tiven Likelihoodfunktion, da der Faktor k bzw. cp (x) rechts im Zähler so- 
wie im Nenner auftritt, so daß durch ihn gekürzt werden kann. Eine der- 
artige Systematisierung stellt keineswegs, wie man auf den ersten Blick arg- 
wöhnen könnte, eine bloß formal-technische Spielerei dar. Wenn man unter 
Likelihood-Schluß ganz allgemein die (sei es quantitative, sei es bloß kompara- 
tive) Beurteilung von statistischen Ungewißheiten in Likelihood-Werten allein ver- 
steht, so kann man sagen: die zu ein und derselben Äquivalenzklasse ge- 
hörenden Likelihoodfunktionen sind in dem Sinn wissenschaftstheoretisch 
gleichwertig, daß sie zu demselben Likelihood-Schluß führen. 
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Ein von Barnard et al. in [Likelihood Inference] sowie von Diehl und Sprott 
in [Likelihoodfunktion], S. 124—127 diskutiertes Beispiel eines Münzwurfes möge 
dies veranschaulichen. Die gegebene experimentelle Anordnung und den Ver- 
suchstyp fassen wir unter der Bezeichnung „Wurf mit dieser Münze“ zusammen. 
Zum statistischen Datum gehöre die Annahme, daß die Würfe voneinander 
unabhängig sind, d. h. daß eine Binomialverteilung vorliegt. # sei die unbekannte 
Chance des Elementarereignisses Kopf dieser Münze. 

Bei n Würfen wurde £-mal Kopf erzielt. Dagegen sei es unbekannt, ob ent- 
weder vor der Durchführung des Experimentes vereinbart worden ist, die Münze 
//-mal zu werfen, oder ob vereinbart worden war, die Münze solange zu werfen, 
bis sich das Ereignis Kopf k-mal verwirklicht. Wir müssen also zwei Fälle unter- 
scheiden : 

1. Fall. Die Münze wird n- mal geworfen. Es realisiere sich k-mzl Kopf Wir 
schreiben die Verteilungsformel in der Weise an, daß wir zunächst die Likeli- 
hoodfunktion und daneben die Wahrscheinlichkeitsverteilung angeben. Denn da- 
durch wird der Unterschied zum zweiten Fall deutlicher zutage treten. Der Wert 
der Zufallsfunktion ist in diesem ersten Fall k. Dieser Wert tritt in der Wahr- 
scheinlichkeitsverteilung als erstes Argument auf. In der Likelihoodfunktion 
führen wir diesen Wert an erster Stelle hinter dem senkrechten Strich an. Nach der 
Formel für die Binomialverteilung ergibt sich: 



Lffi | k;n ) = p(k;&,n) = (l) 0* (1 - (vgl. Teil 0, (46)). 



Man beachte : Der Wert k der Zufallsfunktion muß die Bedingung 0 ^ k K* n 
erfüllen; der Ereignisraum besteht also aus »+ 1 Zahlen. 

2. Fall. Die Münze wird solange geworfen, bis genau y^-mal Zahl eingetreten 
ist. Diesmal ist n der Wert der Zufallsfunktion. Unter Benützung der analogen 
Schreibweise wie im vorigen Fall ergibt sich diesmal : 

L,(& 1 n;k) —p(n;&,k) = gl{) (1 - #)»-*. 



In diesem zweiten Fall ist n der Wert der Zufallsfunktion. Da n nur die Be- 
dingung k n zu erfüllen hat, ist der Ereignisraum diesmal unendlich. 

(Hinweis für die Gewinnung dieser Formel, welche auch Formel für die 
negative Binomialverteilung genannt wird: Aus der Aufgabenstellung ergibt sich, 
daß der letzte Wurf ein Kopfwurf sein muß. Es ist also die Wahrscheinlichkeit da- 
für gesucht, in n — 1 Würfen k — 1-mal Kopf und beim n- ten Mal außerdem Kopf 
zu werfen. Wir haben also die Formel für die Binomialverteilung für n — 1 und 
k — 1 zu bilden und diesen Wert mit # zu multiplizieren. Wir gewinnen: 






n-l-(Ä-l) . $ _ 




also den obigen Wert.) 

Der Vergleich von L x und L 2 zeigt, daß die von & abhängigen Funk- 
tionsteile miteinander identisch sind. Es gilt somit: L x = c • L 2 für einen 
konstanten Faktor c. Die relative Likelihoodfunktion R ist also für beide Experi- 
mente dieselbe ; und damit ist auch die durch diese Funktion beschriebene Plausibili- 
tätsverteilung von # ein und dieselbe. Dieses Ergebnis ist durchaus adäquat : Der 
Likelihood-Schluß abstrahiert von den speziellen Wegen, auf denen man zu 
dem Ergebnis ,,/6-mal Kopf bei n Würfen“ gelangt. In Anknüpfung an 
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Hackings Terminologie könnte man derartige Likelihoodfunktionen, die 
zu ein und derselben durch R erzeugten Äquivalenzklasse gehören, als 
stüt^ungsäquivalent bezeichnen 48 . Denn tatsächlich gelangt man mit ihrer 
Hilfe zu identischen Aussagen über die Stützung von Vermutungen über 
unbekannte Parameter von statistischen Wahrscheinlichkeitsverteilungen, 
d. h. über statistische Hypothesen. Darin tritt eine eindeutige Überlegenheit 
der Likelihood-Betrachtungsweise gegenüber anderen Schlußweisen zutage 
die, wie im obigen Beispiel, Differenzierungen vornehmen, wo keine ge- 
macht werden sollten, da gleiche Ergebnisse bei bloß verschiedenen Wegen 

diesen Ergebnissen vorliegen 49 . 

Wollte man die Vorzüge des sog. Likelihood-Schlusses auf eine Kurz- 
formel bringen, so könnte man mit Diehl und Sprott die folgenden Merk- 
male anführen: (1) verglichen mit anderen Verfahren ist er sehr einfach 
durchzuführen; (2) er liefert für jeden Stichprobenumfang ein exaktes Resul- 
tat; (3) er verwertet die gesamte Information , die man einer Beobachtung ent- 
nehmen kann. 

Der dritte Punkt ist allerdings, wie bereits angedeutet, anfechtbar, so 
daß dieses Merkmal der Likelihoodfunktion bis heute als kontrovers gelten 
muß. Uneingeschränkt wird es von den heutigen Subjektivisten akzeptiert 
(„subjektivistisches Likeühoodprinzip**), aber auch von einem Teil der 
Nichtsubjektivisten (vgl. 12. a, (6)). 

6.e Denken in Likelihoods und Bayesianismus. Scheinbar rationale 
Diskussionen sind vordergründig, wenn in ihnen unausgesprochene welt- 
anschauliche Konflikte ausgetragen werden, zu deren Bekämpfung und Ver- 
teidigung die vorgebrachten Argumente dienen. Äußeres Symptom für eine 
derartige Situation ist das Nichtzustandekommen einer Einigung. Der 
Gegensatz zwischen Bayesianern und Anti-Bayesianern scheint von dieser 
Natur zu sein. Die , Weltanschauung* hat dabei allerdings keinen religiösen 
und kaum einen metaphysischen Inhalt; sie reduziert sich auf den Gegensatz 
zwischen der personalistischen und der objektivistischen Wahrscheinlich- 
keitskonzeption. Nicht immer sind die Diskussionen um das Prinzip von 
Bayes allerdings von der Art, daß die probabilistische Weltanschauung da- 
bei bloß implizit zur Geltung gelangt. „Ich bin Bayesianer** wird man ge- 
wöhnlich als ausdrückliches Bekenntnis zu einer Variante des Subjektivismus 
oder Personalismus auffassen dürfen. 

Um die Situation besser überschauen zu können, gehen wir auf das 
Theorem von Bayes zurück (vgl. Teil 0, (43)) und betrachten dessen typi- 
sche Verwendung für einen sog. ^Rückschluß von der Wirkung auf deren 
Ursache*. 

48 Dieser terminologische Vorschlag stammt von Herrn Dipl.-Mathematiker 
Godehard Link, München. 

49 Ein derartiger anderer Fall läge beim sog. Signifikanzschluß vor. 
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Wenn die n Mengen M l9 . . ., M n eine Zerlegung des Stichprobenraumes 
bilden mit P (M { ) 4 = 0 für alle / = 1, . . ., n, und wenn außerdem A ein 
Ereignis mit P(Al) 4= 0 ist, so gilt nach diesem Theorem für jedes r zwischen 
1 und n: 



(1) W(M r) A) 



W(M r ) • W(A> M r ) 

Z W • W(A 9 Md 
/ = 1 



Wir betrachten das folgende Anwendungsbeispiel: In einer Fabrik 
stehen fünf Maschinen, die alle ein und denselben Produkttyp erzeugen; 
und zwar produziere die erste Maschine 500 Stück, die zweite 800, die dritte 
1200, die vierte 1500 und die fünfte Maschine 2000 Stück täglich. Aufgrund 
längerer systematischer Untersuchungen habe man in der Vergangenheit 
herausgefunden, daß die erste Maschine 0,6% schadhafte Objekte erzeugt, 
die zweite und fünfte je 1,5%, die dritte ud vierte je 1% schadhafte Pro- 
dukte. Es wird das folgende Zufallsexperiment vorgenommen: Man wählt 
ein Stück einer Tagesproduktion willkürlich aus. Angenommen, man ent- 
deckt dabei, daß dieses Stück schadhaft ist. Wie groß ist die Wahrscheinlichkeit , 
daß das Objekt von der \ weiten Maschinen erzeugt worden ist ? 

Wir übersetzen zunächst das gegebene Datum in die wahrscheinlich- 
keitstheoretische Sprechweise : Die Zufallsauswahl besagt, daß für jedes der 
pro Tag erzeugten 6000 Stücke dieselbe Wahrscheinlichkeit 1/6000 besteht, 
gewählt zu werden. Die relativen Häufigkeiten können wir mit den Chan- 
cen identifizieren, daß ein zufällig gewähltes Stück von der fraglichen Ma- 
schine erzeugt wurde. Wenn Mi das Ereignis bedeutet, daß das Stück von 
der /- ten Maschinen produziert worden ist, so erhalten wir die Werte: 
W(Mj) = 500/6000 == 1/12; W(M 2 ) = 2/15; W(M Z ) = 1/5; W(Mj) = 
1 / 4 ; W{M h ) = 1/3. Analog sind die Prozentangaben über die schadhaften 
Stücke als bedingte Wahrscheinlichkeiten zu interpretieren. Wenn wir das 
Ereignis, daß ein Objekt schadhaft ist, mit A (für „Ausschuß“) bezeichnen, 
so gewinnen wir fünf weitere Aussagen : W (A, Mj) = 0,006 (die Wahr- 
scheinlichkeit, daß die erste Maschine Ausschuß produziert, ist 0,006); 
W(A, M 2 ) = W(A, M 5 ) = 0,015; W(A, M z ) = W(A, M A ) = 0,01. Ge- 
sucht ist die bedingte Chance W(M %y A), d. h. die Chance dafür, daß ein 
defektes Stück von der zweiten Maschine erzeugt worden ist. Mittels der 
Formel von Bäyes errechnet sich dieser Wert wie folgt: 



W (M 2 , A) = 



2/15 • 0,015 

1/12-0,006+ 2/15-0,015+ 1/5-0,01 + 1/4-0,01 + 1/3-0,015 



= 1 / 6 . 



Damit ist die Antwort bereits gefunden : Die gesuchte Wahrscheinlichkeit 
beträgt 1 / 6 . 

Das Rechenverfahren kann man sich mittels eines Baumdiagrammes ver- 
anschaulichen. Die Äste dieses Diagramms führen nicht zu sämtlichen 
möglichen Resultaten, sondern nur zu jenen, die das Merkmal A besitzen. 
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Zwischenstationen bilden die 5 Ereignisse M x bis M 5 . Die eingetragenen 
Wahrscheinlichkeiten sind den obigen Informationen entnommen. 




Die Wahrscheinlichkeit 1/6 dafür, daß ein schadhaftes Objekt von der 
zweiten Maschine produziert worden ist, haben wir auf folgende Weise ge- 
wonnen: Wir haben den Bruch gebildet, dessen Zähler die Wahrschein- 
lichkeit dafür enthält, A auf dem durch M 2 gehenden Ast zu erreichen, 
während der Nenner die Summe aller Wahrscheinlichkeiten enthält, A auf 
einem der 5 Äste zu erreichen. Für jeden einzelnen Gesamtast errechnet sich 
dabei die Wahrscheinlichkeit von A als das Produkt der beiden Wahrschein- 
lichkeiten, daß zunächst und dann von M t aus A erreicht wird. 

Auf die bei derartigen Anwendungen gebrauchten Ausdrücke „Ursache“ 
und „Wirkung“ sollte man kein großes Gewicht legen. Im vorliegenden 
Fall besteht die , Wirkung* in einem schadhaften Gegenstand, während die 
möglichen 3 Ursachen c die fünf Maschinen sind, von denen genau eine 
diesen Gegenstand erzeugt haben muß. 

Das Bayessche Theorem gilt auch im kontinuierlichen Fall 50 . Hierfür 
müssen die Begriffe der zweidimensionalen Verteilungsdichte sowie der 
bedingten Wahrscheinlichkeitsdichte benützt werden. cp 1 und cp 2 seien zwei 
Zufallsfunktionen, deren gemeinsame (zweidimensionale) Verteilungsdichte 
f(x ly x 2 ) sei. Die Marginaldichte von x 2 zur Komponente x x ist dann de- 

+ OO 

finiert durch: g 2 (x 2 ) = f f(x ly x 2 ) dx v Die bedingte Wahrscheinlichkeits - 

— OO 

dichte von cp x unter der Annahme, daß cp 2 den Wert x 2 annimmt, lautet: 
f (x I v ^ — f^ Xly 

Die etwas umständliche Wendung „unter der Annahme, daß <p 2 den 
Wert x 2 annimmt“ soll die Tatsache ausdrücken, daß f x für festes x 2 als 
Funktion von x x zu betrachten ist. (x 2 ist also diesmal der beliebige, aber 
feste Parameter.) 

50 Vgl. dazu H. Richter, Wahrscheinlichkeitstheorie, S. 127 ff. und S. 294— 
296; sowie D. V. Lindley, [Probability 1], S. 117/118. 
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Wegen dieser letzten Formel kann man analog zu früher die gemeinsame 
Verteilungsdichte (der beiden Zufallsfunktionen) mit dem Produkt der 
Marginaldichte f ± und der bedingten Dichte^ identifizieren: 

f(x u x 2 ) = & (x 2 ) -/i (x x I x 2 ). 



Durch Vertauschung der Rollen von x x und x 2 können wir die bedingte 
Wahrscheinlichkeitsdichte f 2 als Funktion von x 2 definieren: 






wobei g x diesmal die Marginaldichte von (p 1 zur Komponente x 2 ist, d. h. : 



+ oo 



£>i ( x i) —ff ( x i> x f) d x 2* 



Wenn man sowohl im Zähler als auch im Nenner (hier innerhalb des 
Integralzeichens) der Definition von f 2 die gemeinsame Verteilung/ durch 
das obige Produkt ersetzt, so ergibt sich genau das Bayessche Theorem für 
Dichten, nämlich: 



( 2 ) 



ft (*2 I **l) 



g2 (* 2 ) ' fl (*1 1 *«) 

+ OO 



Um auch hierfür eine anschauliche Vorstellung zu gewinnen, greifen wir 
auf das Modell des Relaisexperimentes zurück, wie es sich z. B. in H. Rich- 
ter, [Wahrscheinlichkeitstheorie], S. 127 ff., findet. Unter einem Relais ver- 
stehen wir eine experimentelle Anordnung Y, zusammen mit einem Ver- 
suchstyp, die Realisationswerte im Bereich R der reellen Zahlen hat. Außer- 
dem sei für jeden derartigen Realisationswert # £ R ein (wieder jeweils mit 
einem bestimmten Versuchstyp verbundenes) Experiment X$ festgelegt, 
welches ebenfalls Realisationswerte in R haben möge. (Da wir uns nicht 
auf den diskreten Fall beschränken wollen, nehmen wir an, daß wir es mit 
einer kontinuierlichen Mannigfaltigkeit solcher Experimente zu tun haben.) 
Das dem Relais Y und dieser Klasse von X $ entsprechende Relaisexperi- 
ment R besteht in der folgenden Vorschrift: „ Führe zunächst Y durch ; so- 
fern dabei # realisiert wird, schließe den Versuch X$ an!“ Das Gesamtexperiment 
kann man durch die zweidimensionale Verteilungsdichte f(x, $) charakteri- 
sieren. Wenn wir auch für die übrigen Dichtefunktionen dieselbe Symbolik 
benützen wie oben (mit x für x 1 und § für x 2 ), so erhalten wir als bedingte 
Dichte f x (x | #) zum Experiment X$: 






/<*,#) 



Das Gesamtexperiment habe nun das Resultat x ergeben. Jetzt entsteht 
analog zum diskreten Fall das folgende Rückschlußproblem : x kann auf ganz 
verschiedenen Wegen zustande gekommen sein, je nachdem, welcher Wert 
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$ im Relais aufgetreten ist. Wir fragen nach der Wahrscheinlichkeit, mit der 
x über das Experiment X# für ein spezielles # zustandekam. Wieder sollen 
wir also von einem gegebenen experimentellen Befund auf den wahren Parameter # des 
Experimentes \ urückschließenl Dazu bilden wir / 2 (# | x) und erhalten nach 
( 2 ) = 

(2') f t @ | x) = . 

f g,W-Mx\e)j» 

— oo 

(Die Veranschaulichung mittels des Baummodells würde diesmal eine 
beim Ursprung einsetzende kontinuierliche Verzweigung voraussetzen, die 
zu den verschiedenen ^-Werten führt. Im übrigen bliebe alles beim alten, 
außer daß natürlich im Nenner die Summe durch das Integral zu ersetzen 
ist.) 

Nach Voraussetzung ist x fest gegeben. (Analog war in (1) vorausge- 
setzt worden, daß A gegeben sei.) Der Integralausdruck im Nenner ist für 
festes x eine konstante Zahl, etwa k" 1 . (Dieselbe Bezeichnung können wir 
auch für (1) wählen.) Das zweite Glied im Zähler ist nichts anderes als die 
Likelihoodfunktion; denn es ist ja: E(ß\ x) — /i (x | $) bzw. als Funk- 
ti onen:L(- | x) = ffx | •). (Analoges gilt wieder für (1) bei gegebenem A.) 
Das erste Glied im Zähler liefert die unbedingte oder Apriori-Dichte von 
#. (In (1) steht an der entsprechenden Stelle die Apriori-Wahrscheinlich- 
keit W(Mf).) Auf der linken Seite haben wir die Aposteriori-Dichte, d. h. 
die Dichte von # bei gegebenem x. (In (1) hatten wir auf der linken Seite die 
Aposteriori-Wahrscheinlichkeit von M r bei gegebenem A.) Das Bayessche 
Theorem kann daher für den kontinuierlichen Fall so angeschrieben werden : 

MV\x) = k- gi {&)-L($\x). 

Wenn wir als Abkürzung für „ist proportional zu“ verwenden, so 
können wir den Proportionalitätsfaktor k unberücksichtigt lassen und den 
Inhalt dieser Bay es sehen Formel umgangssprachlich folgendermaßen 
wiedergeben : 

(Bf) Aposterioridichte ~ Aprioridichte x Eikelihood. 

Analog erhalten wir für den diskreten Fall die Aussage : 

(Bf) Die Aposteriori-Wahrscheinlichkeit ist proportional %um Produkt aus der 
Apriori-Wahrscheinlichkeit und der Eikelihood, 

Dies ist nicht nur eine sehr einprägsame Formulierung. Sie liefert über- 
dies — sofern man die Bedeutungen der drei in dieser Formulierung vor- 
kommenden Ausdrücke klar erfaßt hat — eine außerordentlich gute Ver- 
anschaulichung des Gehaltes des Bayesschen Theorems: die Wahrschein- 
lichkeit, welche einer Größe § nach Vorliegen eines Beobachtungsbefundes 
x zukommt, ist proportional der Wahrscheinlichkeit für diese Größe $ vor 
Gewinnung dieses Befundes, multipliziert mit der auf den Befund x bezo- 
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genen Likelihood von #. (Zu beachten ist dabei, daß bei dieser Proportio- 
nalität das Beobachtungsdatum als fest gegeben vorausgesetzt ist. Mit einer 
Änderung des Beobachtungsdatums variiert auch die Proportionalitäts- 
konstante.) 

Sowohl bezüglich des diskreten als auch bezüglich des kontinuierlichen 
Falles haben wir das Theorem nur in der einfachsten Gestalt formuliert, in 
welcher die Aposteriori-Wahrscheinlichkeit zur Apriori-Wahrscheinlich- 
keit in Beziehung gesetzt wird. Es gilt jedoch auch in der Verallgemeinerung, 
in der die Apriori-Wahrscheinlichkeit durch die Ausgangswahrscheinlichkeit , 
d.h. durch die bedingte Wahrscheinlichkeit relativ zu einem früheren em- 
pirischen Befund, und die Aposteriori-Wahrscheinlichkeit durch die End- 
wahrscheinlichkeit , d. h. durch die bedingte Wahrscheinlichkeit relativ zu dem 
um ein neues Beobachtungsresultat erweiterten empirischen Befund y zu ersetzen ist 51 . 
Da die wissenschaftstheoretische Situation aber beide Male dieselbe ist, 
brauchen wir für die folgende Diskussion keine Differenzierung vorzu- 
nehmen. 

Dagegen unterscheiden wir zwischen zwei Typen von Statistikern. Der 
erste Typ werde durch die Person X repräsentiert. X ist in dem Sinn 
? Objektivist c , daß er entweder eine direkte Häufigkeitsinterpretation der sta- 
tistischen Wahrscheinlichkeit akzeptiert (wie dies z. B. in der v. Mises- 
Reichenbach-Schule geschah) oder den Begriff der statistischen Wahrschein- 
lichkeit für eine theoretische Größe hält, die nur indirekt mit dem Begriff der 
relativen Häufigkeit in Zusammenhang gebracht werden kann. (Die zweite 
Variante dieser Denkweise soll also entweder identisch oder doch sehr ähn- 
lich sein mit der von uns versuchsweise vertretenen Auffassung, daß Chance 
eine undefinierbare theoretische Größe ist.) Der zweite Typ werde durch 
die Person Y repräsentiert, welche allein eine subjektivistische Wahrschein- 
lichkeitskonzeption für richtig hält. 

X wird zugestehen, daß man unter gewissen Voraussetzungen das 
Bayessche Theorem als statistisches Inferenzmodell verwenden könne. Im 
Unterschied zum 5 Likelihood-Schluß-ModelF macht dieses Bayessche Mo- 
dell bedingte Wahrscheinlichkeitsaussagen über miteinander konkurrierende sta- 
tistische Hypothesen. Vor die Wahl gestellt, welcher dieser beiden Modelle 
er den Vorzug geben wolle, wird X betonen, daß er eindeutig das Likeli- 
hood-Verfahren befürworte, da das Bayessche Theorem nur eine sehr begrenzte 
Anwendungsmöglichkeit besitze. Der Grund dafür liegt nach X darin, daß man, 
um das Bayessche Inferenzmodell überhaupt anwenden zu können, über 
wohldefinierte objektive Apriori-Wahrscheinlichkeiten (Aprioridichten) 
bzw. über objektive Ausgangswahrscheinlichkeiten (Ausgangsdichten) 
verfügen müsse. Wie aber soll man zu diesen gelangen? Für ihn ist jede sta- 
tistische Wahrscheinlichkeitsaussage eine Hypothese über einen unbekannten 

51 Für den diskreten Fall vgl. dazu etwa die Formel (19—9) in Carnap, 
[Induktive Logik], S. 169. 
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Parameterwert . Es erscheint ihm daher bestenfalls dann als sinnvoll, einen 
Apriori-Ansatz zu machen, wenn er aufgrund zahlreicher früherer Experi- 
mente glaubt, bereits eine vernünftige , d. h. eine gut gestützte Hypothese zu be- 
sitzen, die er als erstes Glied auf der rechten Seite des Bayesschen Theorems 
einsetzen kann. Wenn diese Voraussetzung hingegen nicht erfüllt ist, wäre 
es nach der Auffassung von X verantwortungslos, sich auf das Theorem 
von Bayes zu stützen. Er könnte zwar einen willkürlichen Apriori-Ansatz 
wählen und unter Benützung der nach Beobachtung gewonnenen Likelihood 
die Berechnung gemäß dem Theorem von Bayes vornehmen. Da das 
Rechenergebnis jedoch an den willkürlichen, also gänzlich unfun- 
dierten Apriori-Ansatz rückgebunden bleibt, ist es in diesem Fall wertlos. 

Ganz anders der 5 Subjektivist" Y. Er ist frei von den Skrupeln, die den 
? Objektivisten" X beherrschen. Y stellt keine mehr oder weniger problema- 
tischen (bzw. mehr oder weniger gut bestätigten) Hypothesen über unbe- 
kannte Größen auf. Die einzige wahre Wahrscheinlichkeit ist für ihn die 
subjektive Wahrscheinlichkeit; und diese ist ihm entweder genau oder 
innerhalb gewisser Grenzen bekannt. Vorausgesetzt wird lediglich ein ge- 
wisses Minimum an realistischer Denkweise, um phantastische Apriori- 
Annahmen auszuschließen. (So z. B. darf Y nicht aufgrund eines seltsamen 
Vorurteils gegen ein bestimmtes Merkmal bzw. gegen ein bestimmtes 
Größenintervall deren Apriori-Wahrscheinlichkeit mit 0 ansetzen 52 ). Hier 
muß man allerdings eine weitere Differenzierung vornehmen. 

Subjektivsten ? vom alten Schlag" meinten, auch für den Apriori-An- 
satz eine ganz bestimmte Empfehlung aussprechen zu müssen, nämlich daß 
eine Apriori-Gleichverteilung in Ansatz zu bringen sei 53 . Heutige Subjek- 
tivisten, wie z. B. Savage, verzichten auf jede derartige Empfehlung (und 
laufen dadurch auch nicht Gefahr, sich für ihren Ansatz rechtfertigen zu 
müssen und dabei in eine schwierige Situation zu geraten, wenn sie bei der 
Rechtfertigung einen intuitiven Appell an das Indifferenzprinzip vorneh- 
men.) Y kann also eine Aprioriverteilung vorschlagen, die seiner persön- 
lichen Überzeugung entspricht und die ihren numerischen Niederschlag in 
Wettquotienten findet. Dem Einwand, daß dieses persönliche Dafürhalten 
ja nichts weiter beinhalte als ein subjektives Vorurteil, begegnet Y damit, 

82 Diese Zusatzannahme beinhaltet keinen Schönheitsfehler des subjekti- 
vistischen Vorgehens. Denn Y muß, um überhaupt mit den Gesetzen der Wahr- 
scheinlichkeitsrechnung zu operieren, ohnehin von vornherein als ein idealisiertes 
rationales Subjekt aufgefaßt werden. Vgl. dazu die Begründung der wahrschein- 
lichkeitstheoretischen Axiome bei Carnap II sowie die Diskussion in 11. c. 

83 Dies war auch das Vorgehen von Bayes selbst. Eine solche Auffassung 
vertrat selbst noch Jeffreys in [Probability], Abschnitt 3.4. Eine ausführliche 
Diskussion des Bayesschen Beispiels findet sich bei Hacking, [Statistical Infe- 
rence], S. 195 ff. Auch Bayes selbst machte in diesem Beispiel bereits von der 
Methode der Relaisexperimente Gebrauch. Hacking nennt a. a. O. S. 195 eine 
experimentelle Anordnung für ein derartiges Experiment tandem set-up. 
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daß es nichts ausmache , hei derartigen Vorurteilen %u beginnen \ denn die erforder- 
liche 5 Ob j ekti vierung c stelle sich in einem genau präzisierbaren Sinn ein. 

Damit ist folgendes gemeint : Der im Bayesschen Theorem auf der rechten 
Seite verwendete Likelihoodfaktor versammelt in sich alle Informationen aus dem 
empirischen Befund . Und dieser Faktor nimmt mit wachsender Zahl von Beob- 
achtungen an Gewicht immer mehr %u, während die voneinander divergierenden 
A priori- Meinungen mehr und mehr an Bedeutung verlieren . 

Zwecks besserer Veranschaulichung nehmen wir z. B. an, die im stati- 
stischen Datum enthaltene Oberhypothese besage, daß eine kontinuierliche 
Verteilung von der Form einer Normalverteilung mit gegebener kleiner 
Varianz a 2 vorliege. Außer der Kurve, welche die Aprioridichte repräsen- 
tiert, erhalten wir zusätzlich eine relativ steile Gaußsche Glockenkurve. Mit 
wachsenden empirischen Daten wird die Spitze der Likelihoodfunktion um 
den maximalen Likelihoodwert immer schärfer. 54 Die im Bayesschen Theo- 
rem rechts vorgeschriebene Multiplikation drückt alle Wahrscheinlich- 
keiten außerhalb eines Bereiches innerhalb der Glockenkurve fast auf 0 
herab (denn die Glockenkurve verläuft dort bereits ganz flach). Die Unter- 
schiede in der Aprioribewertung gelangen also nur in jenem kleinen Bereich 
zur Geltung, verlieren aber angesichts des immer mächtiger werdenden 
Likelihoodfaktors zunehmend an Relevanz. 

Dieser Prozeß wird von den Subjektivisten als das Fernen aus der Er- 
fahrung bezeichnet 55 . An diesem Begriff kann man sich besonders eindrucks- 
voll den Gegensatz zwischen den verschiedenen Deutungen von ^Objektivität 
vor Augen führen. Außerdem gewinnen wir hier ein vorbereitendes Ver- 
ständnis für die in 12.a diskutierte personalistische Rekonstruktion des 
Begriffs der statistischen Wahrscheinlichkeit. Für den Objektivisten bleibt 
ja das Ziel seiner Bemühungen stets der Erwerb eines Wissens um die un- 
bekannte, aber festliegende statistische Wahrscheinlichkeit. Als Objektivi- 
tätsmaß kommt daher für ihn nur entweder die Entfernung des vermuteten 
Wertes vom wahren Wert (absolutes Maß) oder der Stützungsgrad einer 
Vermutung über den wahren Wert (Stützungsmaß) in Frage 56 . Nach sub- 

54 Der einfache mathematische Grund dafür ergibt sich aus der weiter unten 
angeführten Rechenskizze: Wenn mehrere Meßwerte vorliegen, kommt es in der 
Formel für die Likelihoodfunktion zu einer Multiplikation . Werte, die größer sind 
als 1, erhöhen sich dadurch sukzessive, während sich unterhalb von 1 liegende 
Werte dadurch verkleinern. 

55 Der Leser wird sich an eine analoge Situation in Carnaps System erinnern. 

E6 Diese beiden miteinander konkurrierenden Maße erzwingen eine Diffe- 
renzierung innerhalb der objektivistischen Auffassung. In Abschnitt. 10 soll ge- 
nauer gezeigt werden, wie das erste (absolute) Maß im Gesichtspunkt der Opti- 
malität auf lange Sicht und das zweite im Gesichtspunkt der Bestätigung zur Geltung 
gelangt und %u %wei voneinander abweichenden Gütekriterien von Schätzungen führt. 
Als Konsequenz davon wird sich ergeben, daß auch bei Abstraktion von aller ent- 
scheidungstheoretischer Problematik Fragen der Schätzung unterbestimmt blei- 
ben, solange man sich nicht für eines der beiden Gütekriterien entschieden hat. 
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jektivistischer Ansicht ist es zwecklos und unfruchtbar, sich auf eine der- 
artige unbekannte ^metaphysische* Entität zu beziehen. Die sog. Objektivität 
besteht in einem die Überzeugungen betreffenden Prozeß von der Art, der 
im Prinzip des Lernens aus der Erfahrung zur Geltung gelangt: Voneinan- 
der mehr oder weniger stark abweichende persönliche Überzeugungen haben die Ten- 
dern £, sich unter dem Gewicht der Tatsachen einander %u nähern 57 . Dieser Deutung 
von Objektivität als Meinungskonvergenz entspricht die subjektivistische 
Deutung des empiristischen Schlagwortes, daß man ,die Fakten allein 
sprechen lassen* müsse: Für den Subjektivsten kann dies nicht heißen, daß 
man vollkommen unvoreingenommen, d. h. ohne jegliche Vormeinung, an 
die empirischen Daten heranzutreten habe, um dann alle erforderlichen 
Informationen aus diesen Fakten herauszuholen. Vielmehr muß es als Auf- 
forderung %u der Bereitschaft interpretiert werden, unsere vorhandenen Vormei- 
nungen im Licht der empirischen Daten z u modifizieren. 

Ein einfaches Illustrationsbeispiel für die subjektivistische Deutung des Bayes- 
schen Theorems gibt Savage et al. in [Statistical Inference], S. 21 ff.; vgl. dazu die 
graphische Veranschaulichung auf S. 22, die auch den eben beschriebenen all- 
gemeinen Fall deckt. Das Beispiel ist noch in einer anderen Hinsicht lehrreich, da 
es darin prima facie überhaupt nicht um eine statistische Aussage, sondern um ein 
Problem der Messung, nämlich um die genaue Bestimmung des Gewichtes eines 
physikalischen Gegenstandes geht. Eine statistische Problemstellung entsteht erst 
dadurch, daß die für die Gewichtsbestimmung benützte Waage als ein erprobtes 
Meßgerät vorausgesetzt wird, dessen Fehler eine Normal Verteilung mit gegebener 
Varianz besitzt. 

Ich möchte dieses Beispiel zum Anlaß nehmen, um eine kurze Ergänzung zu 
den Ausführungen von Bd. II, Theorie und Erfahrung. , S. 105—109, zu geben. 
Dort habe ich eine Begründung für die These skizziert, daß man bei der Prüfung 
quantitativer Gesetzmäßigkeiten zwischen außer systematischen und systematischen 
Basissätzen unterscheiden müsse. Die ersteren beschreiben die tatsächlichen 
Meßresultate, während die letzteren statistische Hypothesen über den wahren 
Wert darstellen. Diese Konstruktion erwies sich als notwendig, da sonst jedes 
Gesetz als effektiv falsifiziert betrachtet werden müßte. Die Behauptung, daß man 
deterministische Gesetze mittels statistischer Hypothesen überprüft, hat bei ver- 
schiedenen meiner wissenschaftstheoretischen Kollegen Befremden hervorgerufen, 
obwohl ich hier nichts anderes getan habe als eine den Statistikern wohlbekannte 
Tatsache in die wissenschaftstheoretische Sprechweise zu übersetzen. 

Dieser Sachverhalt ist in einer weiteren Hinsicht von Interesse, welche den 
sog. wahren Wert einer Größe betrifft. Dazu sei nochmals das a. a. O. S. 106 ange- 
führte Beispiel von Daniel Bernoulli 58 zum Vergleich herangezogen. Sein 
eigentliches Problem, nämlich aus voneinander abweichenden astronomischen 
Meßergebnissen für ein und dasselbe Phänomen den wahren Wert herauszufinden, 
verglich er mit der folgenden Aufgabe : Gegeben sei eine Zielscheibe mit vertikalen 
äquidistanten Linien sowie eine Anzahl n von Markierungen auf dieser Scheibe, 
welche die Einschläge darstellen, die von einem guten Bogenschützen herrühren. 
Es sei außerdem bekannt, daß der Schütze stets auf eine bestimmte Linie gezielt 
hat; doch wissen wir nicht, welche Linie dies war. Die Ermittlung dieses wahren 

67 Vgl. dazu Savage et al., [Statistical Inference], S. 14. 

58 D. Bernoulli, [Most Probable Choice]. 
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Zieles des Schützen ist vielmehr unsere Aufgabe. Um dem Problem eine mathema- 
tisch präzisierte Gestalt geben zu können, muß doch genau gesagt werden, was mit 
der Bezeichnung „guter Schütze“ alles impliziert wird. Gemeint ist jedenfalls, daß 
systematische Fehler ausgeschlossen sein sollen, gleichgültig, ob solche vom 
Schützen oder von seinem Gerät oder von Vorgängen in der Außenwelt her- 
rühren (z. B. der Schütze schielt nicht; seine Armbrust ist nicht verbogen; es 
herrscht kein konstanter Seitenwind von rechts usw.). Unter dieser Annahme 
können die Abweichungen vom Ziel als statistische Fehler angesehen werden. Die 
Abweichungen der Einschläge x< vom Ziel nimmt Bernoulli als normalver- 
teilt an. Daher löst er seine Aufgabe in der Weise, daß er als wahres Ziel die Linie 
l k bestimmt, um die sich die Treffer am dichtesten scharen. Offenbar handelt es sich 
dabei um einen Maximum-Likelihood-Schluß; denn die Hypothese, daß l k das 
wahre Ziel sei, hat mit größerer Wahrscheinlichkeit zu der Verteilung der Ein- 
schlagstellen x, geführt als jede der endlich vielen damit rivalisierenden Alternativ- 
hypothesen. 

Das analoge Meßproblem — bei dem ja zum Unterschied von diesem Bei- 
spiel nicht eine feste Anzahl möglicher wahrer Werte vorgesehen ist — kann in das 
folgende mathematische Gewand gekleidet werden: Es liege eine Zufallsfunktion 
vor, deren Verteilung durch eine normale Wahrscheinlichkeitsdichte 



/(*) = 







gegeben sei. Das Mittel fx und die Standardabweichung <r seien unbekannt. Da- 
gegen liege eine Stichprobe 

{xi, . . .,x ra } 



vom Umfang n vor, deren Elemente unabhängig beobachtete Werte dieser normal- 
verteilten Zufallsfunktion sind. Es sollen die plausibelsten Werte von fi und a be- 
stimmt werden. Die zugehörige Likelihoodfunktion mit dem Parameter # — 
(fi, d) lautet: 
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Als plausibelster Wert von fi ergibt sich das arithmetische Mittel der beob- 
achteten x-Werte, nämlich: 

x=— Zx { . 



Der plausibelste Wert der Varianz a 2 ist von fi abhängig. Einsetzung des eben 
gewonnenen Wertes in die Lösungsformel liefert : 

ö>=^z(x,- ßy. 

(Rechentechnisch geht man dabei am besten so vor, daß man InL statt L zum 
Ausgangspunkt wählt; denn wegen der strengen Monotonie der Logarithmus- 
funktion nimmt die letztere Funktion genau dort ein Maximum an, wo die erstere 
maximal wird. Die Nullsetzung der ersten Ableitung nach fi und nach a 2 liefert 
dann zwei Gleichungen mit diesen Lösungen. Für die Einzelheiten sei auf die 
Aufgabe 22, S. 153, in van der Waerden, [Statistics], verwiesen.) 

Man kann nun die wissenschaftstheoretisch interessante Frage aufwerfen, ob 
wirklich die von Daniel Bernoulli behauptete Analogie zwischen diesem Meß- 
problem und seinem Beispiel mit dem Bogenschützen besteht. Hier sind zwei ver- 
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schiedene Standpunkte denkbar. Nach der ersten Auffassung ist die Analogie per- 
fekt: Im einen Fall handelt es sich darum, das wahre Ziel des Schützen zu er- 
mitteln; im anderen Fall geht es um die Bestimmung einer wahren Größe. Daß in 
beiden Fällen die Aufgabe durch eine statistische Fragestellung ersetzt wird, die 
von einer normalverteilten Zufallsfunktion ausgeht, ist allein in menschlicher Un- 
zulänglichkeit begründet, darin nämlich, daß auch der beste Schütze das Ziel nicht 
genau trifft und daß auch der gewissenhafteste Beobachter außerstande ist, den 
exakten Wert zu messen. Nach der z we i ten Auffassung bricht die Analogie in einem 
wesentlichen Punkt zusammen. Das wahre Ziel des Schützen könnte man auch auf 
anderen Wegen ermitteln. Es wird ja vorausgesetzt, daß zumindest der Schütze 
selbst dieses Ziel genau kennt. Insofern hat in diesem Fall das Reden vom wahren 
Ziel einen guten Sinn. Dagegen ist nach der zweiten Auffassung der wahre Wert 
einer Größe eine metaphysische Fiktion, was sich z. B. darin zeigt, daß man auf die 
Frage: „wer kennt diesen Wert?“ höchstens antworten könnte: „der liebe Gott“. 
Wenn man diese zweite Position ernst nimmt, so wird die Suche nach der wahren 
Größe nicht wegen menschlicher Unzulänglichkeit durch die Suche nach einer best- 
gestützten statistischen Hypothese ersetzt , sondern das, was man unter „wahre 
Größe“ verstehen soll, wird durch den Wert n der statistischen Hypothese erst 
definiert . Die zweite Auffassung ist zweifellos die realistischere und dürfte nicht nur 
von Subjektivisten vertreten werden. 

Die vorangehenden Betrachtungen dürften dreierlei gezeigt haben. Er- 
stens hat sich herausgestellt, daß die Beurteilung der Leistungsfähigkeit des Bajes- 
schen Prinzips ganz anders ausfällt, je nachdem , ob man mit einer , objektivi- 
stischen" oder mit einer ,subjektivistischen‘ Wahrscheinlichkeitskonzeption 
an dieses Theorem herantritt. Zweitens wurde damit ein neues Licht auf den 
Begriff der Likelihood geworfen. Von großer Wichtigkeit ist dieser Begriff für 
sämtliche Schulen in der Wahrscheinlichkeitstheorie: Für den Subjektivisten 
hat die Likelihoodfunktion wegen ihrer unerläßlichen Rolle innerhalb des 
Bayesschen Theorems Bedeutung. Für den Objektivisten liegt ihre Be- 
deutung darin, daß er mit dem Likelihood-Schluß auch dann operieren 
kann, wenn von seinem Standpunkt aus die Voraussetzung für eine kor- 
rekte Anwendung des Bayesschen Theorems nicht erfüllt sind. Drittens 
können wir aus den Diskussionen um dieses Prinzip eine philosophische Lehre 
ziehen, nämlich daß es eine trügerische Hoffnung wäre, z un ächst über die 
Verwendbarkeit des Bayesschen Theorems im Rahmen des statistischen 
Schließens zu einer Übereinstimmung zu gelangen, um dann eine Entschei- 
dung zugunsten des Subjektivismus oder des Objektivismus treffen zu kön- 
nen. Vielmehr müssen wir den Spieß umdrehen: Zunächst muß Klarheit 
über die Natur des Wahrscheinlichkeitsbegriffs herrschen; dann kann man 
hoffen, zu einer Einigung über die Rolle des Theorems von Bayes zu gelan- 
gen. Ansonsten ist die Diskussion dazu verdammt, ohne Erfolgsaussichten 
ins uferlose zu führen: Der Objektivist wird immer wieder die außer- 
ordentlich begrenzte Anwendungsmöglichkeit des Theorems angesichts 
der Tatsache hervorkehren, daß die benötigten objektiven Apriori-Wahr- 
scheinlichkeiten nicht verfügbar sind. Der Subjektivist wird immer wieder 
entgegnen, daß diese angeblich begrenzte Anwendungsmöglichkeit auf 
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einer Pseudoschwierigkeit basiert, da man für die Apriori-Wahrscheinlich- 
keiten das persönliche Dafürhalten von Personen verwenden könne. 
„Und was in der menschlichen Welt“, so könnte er hinzufügen, „ist denn 
besser und häufiger verfügbar als subjektive Vorurteile?“ Dem sich dabei 
sofort aufdrängenden potentiellen Gegeneinwand wird er durch sein Prin- 
zip des Lernens aus der Erfahrung von vornherein das Wasser abgraben; 
denn dieses Prinzip verhindert das Versanden im Subjektivismus und garan- 
tiert die (nach seiner Auffassung einzig sinnvolle) 5 Objektivität 4 . 

Erst wenn man die Reihenfolge in der Diskussion über die Themen 
„Bayesianismus“ einerseits, die Alternative „subjektive oder objektive 
Interpretation der statistischen Wahrscheinlichkeit“ andererseits in der ge- 
schilderten Weise umkehrt, werden Sätze wie „ich bin Bayesianer“ und 
„ich bin Anti-Bayesianer“ aufhören, quasi-religiöse Glaubensbekenntnisse 
zu sein, über die man nicht mehr rational diskutieren kann. 



7. Vorläufiges Postludium: Ergänzende Betrachtungen 
zu den statistischen Grundbegriffen 

7.a Der Begriff des statistischen Datums. Der Ausdruck „Datum“ 
wird meist im Sinn von „Beobachtungsbefund“ benützt, so z. B. in fast 
allen Bestätigungstheorien, aber häufig auch in der Statistik. Die hier ver- 
wendete Terminologie weicht von diesem Sprachgebrauch stark ab. In der 
Formalisierung wird ein statistisches Datum durch eine komplexe kombi- 
nierte Proposition ausgedrückt. Das erste Glied dieser geordneten Kon- 
junktion enthält eine Behauptung über eine Klasse möglicher Verteilungen; 
das zweite Glied enthält eine Aussage über ein mögliches Resultat eines 
möglichen Versuchs an einer experimentellen Anordnung. Das letztere 
wird in der Statistik gewöhnlich als Datum bezeichnet, das erstere hingegen 
als Spezifikation des statistischen Problems oder als Wahl des geeigneten 
Modells. Die Rechtfertigung dafür, beides in der geschilderten Weise zu- 
sammenzufassen, liegt darin, daß die Experimentatoren und statistischen 
Praktiker Annahmen beider Formen für ihre Überlegungen voraussetzen. 

Voraussetzungen sind selbstverständlich keine unumstößlichen Gewißheiten . Bei- 
de Komponenten eines statistischen Datums bleiben vielmehr stets einer 
möglichen Revision unterworfen. Bezüglich der zweiten Komponente kommt 
es dazu, sobald Zweifel an der Gültigkeit des Beobachtungsbefundes auf- 
treten, z. B. wegen eines mutmaßlichen Versagens eines Meßinstrumentes, 
eines experimentellen Irrtums oder des Vorliegens einer Sinnestäuschung. 
Hinsichtlich der ersten Komponente liegt dies noch mehr auf der Hand. Da- 
rin wird ja von vornherein eine Klasse von möglichen statistischen Hypo- 
thesen ausgewählt. Und diese Klasse kann eingeengt oder erweitert oder durch 
eine ganz an ^ ere ersetzt werden. 
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Wie gelangt man zu dieser ganz speziellen Klasse, die in das Datum ein- 
bezogen wird ? Es ist wichtig einzusehen, daß es ein hoffnungsloses Unter- 
fangen wäre, auf die Frage eine generelle Antwort zu geben. Der statistischen 
Stützungstheorie geht es um eine befriedigende Antwort auf die Frage: 
„Welche statistische Hypothese ist aufgrund statistischer Daten am besten 
bestätigt ?“ und der statischen Testtheorie hauptsächlich um die Beant- 
wortung der Frage: „Welche statistischen Annahmen sollen auf Grund 
statistischer Daten verworfen werden ?“ Dagegegen sind ßchlüsse\ die %u den 
Daten selbst führen , nichts für die Statistik charakteristisches . 

Natürlich kann man und soll man sich trotzdem Gedanken darüber 
machen, welche Überlegungen den Anlaß dafür geben können, Hypothesen 
vorauszusetzen, die in der ersten Komponente des statistischen Datums 
stecken. Dazu ist zu beachten, daß wir es hier mit %ivei vollkommen verschie- 
denen Arten von Oberhjpothesen %u tun haben: (a) Das eine ist die Annahme, daß 
die untersuchten, miteinander rivalisierenden statistischen Verteilungshypo- 
thesen %u einer bestimmten Klasse von Verteilungen gehören (z. B. daß wir es nur 
mit Exponentialverteilungen zu tun haben und die Hypothesen nur in be- 
zug auf den Parameter X voneinander ab weichen), (b) Das zweite ist die in 
vielen Fällen stillschweigend vorausgesetzte Unabhängigkeitsannahme (in der 
doppelten Bedeutung des Wortes, vgl. 3.b). 

Die Gründe für die Annahme derartiger Oberhypothesen können sehr 
vielfacher Natur sein. Erstens stützen sie sich vermutlich meist auf sehr ab- 
strakte andersartige theoretische Annahmen; zweitens ist es fraglich, ob 
diese andersartigen Annahmen eine formale Präzisierung zulassen. 

Drei mutmaßliche Faktoren bei der Wahl von (a) seien kurz angedeutet : 

1. Bereits akzeptierte physikalische Theorien. Die für gültig erachtete 
Theorie der Strahlung sagt z. B. voraus, daß die kumulative Verteilung für 
radioaktives Material die Struktur einer Exponentialverteilung hat. Also 
geht man davon aus, daß die kumulative Verteilung für eine neuentdeckte 
radioaktive Substanz die Struktur F(x) = 1 — e~ Xx hat und daß es nur unbe- 
kannt ist, welchen genauen Wert X hat. Über diesen Wert werden verschie- 
dene statistische Hypothesen formuliert. 

2. Nicht zu unterschätzen sind auch Einfachheitsbetrachtungen . Die Ein- 
richtungsstücke der Werkzeugkammer, aus welcher der Statistiker sein 
Material herausholt, sind von mathematischen Virtuosen nach Einfachheit 
und Durchsichtigkeit präfabriziert. Zu komplizierte Verteilungsfunktionen, 
die mathematisch nicht zu handhaben sind, bleiben von vornherein außer 
Betracht. 

3. An die Rolle von intuitiven Analogiebetrachtungen ist bereits in Punkt 
1. implizit appelliert worden. Verschiedene radioaktive Substanzen sind be- 
reits bekannt. Die Hypothese, daß die für sie geltenden Verteilungsfunk- 
tionen eine bestimmte Gestalt haben, hat sich an der Erfahrung bestens be- 
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währt. Also nimmt man per analogiam an, daß es sich auch bei dieser neuent- 
deckten radioaktiven Substanz nicht anders verhalten werde. 

Spätestens bei der in Punkt 3 benützten Redewendung „an der Erfah- 
rung bestens bewährt“ wird im Leser die Frage aufgetaucht sein, wie es denn 
mit dem Überprüfungs- (und nicht Gewinnungs-) Verfahren solcher Ober- 
hypothesen steht. Die Antwort dürfte lauten: Falls die hier skizzierte 
Stützungstheorie überhaupt als akzeptabel angesehen wird, ist sie auch auf 
dieser höheren Stufe anwendbar . 

Ähnliche Überlegungen gelten bezüglich (b). Wie stützt man denn z. B. 
die Annahme, daß die Ergebnisse von Versuchen einer bestimmten Art un- 
abhängig voneinander sind? Auch hier gibt es wieder verschiedenste Mög- 
lichkeiten: Untersuchung des Mechanismus des Zufallsexperimentes; 
Feststellung einer Ähnlichkeit (Analogie) zu anderen experimentellen 
Mechanismen, von denen man bereits zu wissen glaubt, daß sie Resultate 
liefern, die voneinander unabhängig sind. Eine wichtige Klasse bilden die- 
jenigen Fälle, wo man die Unabhängigkeit künstlich mittels eines Randomi- 
zers erzeugt (Münzwurf, Tabelle mit Zufallszahlen usw.). 

Hier gilt dasselbe wie im ersten Fall: Unabhängigkeitsannahmen sind 
ebensowenig sakrosankt wie Oberhypothesen vom Charakter statistischer 
Verteilungshypothesen. 

Wir sind in diesen letzten Betrachtungen stets von der Unterscheidung 
zwischen zwei Arten von Oberhypothesen ausgegangen, nämlich solchen, die 
selbst den Charakter statistischer Verteilungshypothesen haben, und solchen, 
welche die Unabhängigkeit von Ereignissen und von Versuchen betreffen. 
Dies bedarf noch einer Rechtfertigung, da wir an früherer Stelle die These 
aufstellten, daß es sich bei den zwei Unabhängigkeitsbegriffen nicht um 
selbständige Begriffe handle, sondern daß die beiden letzteren auf den Be- 
griff der Chance reduzierbar seien. Zunächst ist festzustellen, daß die jetzige 
Unterscheidung bloß methodischen Charakter hat, und daß daher dadurch 
nicht etwa im Widerspruch zu der früheren These wieder eine begriffliche 
Zweiteilung eingeführt werden soll. Die Begründung für die methodische 
Unterscheidung bezüglich Fragen der Stützung und Prüfung lautet folgen- 
dermaßen: Soweit es sich bei den zum statistischen Datum gehörenden 
Oberhypothesen um V erteilungshyp o the s en handelt, nehmen sie vom Stand- 
punkt der Stützung und Prüfung überhaupt keine Sonderstellung ein. So- 
weit es sich jedoch um Unabhängigkeitsannahmen handelt, liegen die Dinge 
komplizierter. Wie nämlich bereits in l.b bei Erörterung des Einwandes (7) 
hervorgehoben wurde, läßt sich vom probabilistischen Unabhängigkeitsbe- 
griff ein Begriff der physikalischen Unabhängigkeit von Ereignissen unterschei- 
den, der eine fehlende kausale Beeinflussung beinhaltet. Nun darf zwar 
dieser Begriff nicht mit dem der probabilistischen Unabhängigkeit identifi- 
ziert werden. Doch besteht zwischen beiden ein enger Prüfungs^usammen - 
hang\ Häufig wird uns eine gut bestätigte Hypothese über das Vorliegen der 
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einen Art von Unabhängigkeit als Symptom für das Vorliegen der anderen 
Art von Unabhängigkeit dienen, insbesondere also z. B. eine gut bestätigte 
Hypothese über das Fehlen einer physikalischen Wechselwirkung als ein 
starkes indirektes Indiz für das Vorliegen einer Unabhängigkeit im statisti- 
schen Sinn. Soweit das letztere der Fall ist, läßt sich die Beurteilung sta- 
tistischer Unabhängigkeitshypothesen auf die Untersuchung von Kausalhypo- 
thesen %urückführen. Für die Bestätigungs- und Testproblematik kann sich da- 
durch in gewissen Situationen eine vorteilhafte Vereinfachung ergeben. 

Was Popper über die Beobachtungsbasis der Erfahrungserkenntnis sagt, 
gilt für diesen verallgemeinerten Fall. Ebenso wie man zunächst akzeptierte 
Beobachtungssätze später einer Revision unterziehen kann, falls Bedenken 
auf treten, lassen sich die statistischen Oberhypothesen beider Arten einer spä- 
teren Überprüfung unterziehen. Und es kann der Fall eintreten, daß sie gegen 
andere Möglichkeiten getestet werden müssen und diesem Test nicht stand- 
halten. 

Man kann das Vorgehen auch mit einem Grundgedanken von N. Goodmans 
Theorie in Verbindung bringen: Wir können bei der Überprüfung statistischer 
Hypothesen nicht mit dem statistischen Nullpunkt anfangen. Vielmehr müssen wir 
stets statistische Oberhypothesen — und zwar meist sogar Oberhypothesen von 
zwei verschiedenen Arten — als gültig voraussetzen. Dieses prima facie zirkulär 
oder dogmatisch aussehende Verfahren rechtfertigt bei genauerem Zusehen keines 
der beiden Verdachtsmomente: Einerseits erfolgt die Annahme der Oberhypo- 
these nicht aufgrund eines vorangehenden Tests ; andererseits kann der Dogmatis- 
mus jederzeit aufgehoben werden, indem man die Hypothese selbst einer Prü- 
fung unterzieht. 

Zusammenfassend kann man also sagen : Die statistischen Daten, welche 
man bei der Überprüfung einer statistischen Hypothese als gültig voraus- 
setzt, schließen nicht nur Beobachtungsergebnisse ein (einschließlich des 
leeren Resultates), sondern daneben noch zwei Arten von statistischen 
Hypothesen höherer Ordnung: die Annahme der Zugehörigkeit zu einer 
Verteilungsklasse (parametrische Verteilungsform) und z. B. die Annahme 
der Unabhängigkeit. Beide Annahmen kann man in Zweifel ziehen oder so- 
gar fallenlassen. Insbesondere kann man immer beschließen, auch die vor- 
ausgesetzten statistischen Hypothesen höherer Ordnung zu testen. 

7.b Chance und Häufigkeit auf lange Sicht. Die inhaltliche Ausgangs- 
basis für den Begriff der statistischen Wahrscheinlichkeit oder der Chance 
bildete der vage Begriff „Häufigkeit auf lange Sicht“. In der Sprechweise 
Carnaps bildet das letztere das Explikandum für das erstere, welches das 
gesuchte Explikat darstellt. Den Zusammenhang zwischen beidem darf man 
sich nicht als zu einfach vorstellen, vor allem nicht so, daß der Begriff der 
Chance definitorisch auf den Begriff der relativen Häufigkeit zurückgeführt 
werden müsse. Das letztere ist die Auffassung der Reduktionisten unter den 
Vertretern eines objektiven Wahrscheinlichkeitsbegriffs. Und diese allzu 
primitive Vorstellung war es, die zu der subjektivistischen Kritik führte. 
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Eine Diskussion dieser Kritik soll an späterer Stelle erfolgen. Hier handelt 
es sich nur darum festzustellen, daß die präzise Explikation, welche in der 
Formulierung von Regeln ihren Niederschlag findet, von diesem intuitiven 
Hintergrund keinen Gebrauch macht . 

Besonders deutlich tritt dies dort zutage, wo sich ändernde Chancen be- 
trachtet werden, wie etwa in dem in l.b erwähnten Beispiel. Ein c long run’ 
bei gleichbleibender Wahrscheinlichkeit liegt hier überhaupt nicht vor, 
und die Zurückführung auf relative Häufigkeit auf lange Sicht könnte, wie 
wir gesehen haben, nur unter Zuhilfenahme künstlicher Als-ob-Konstruk- 
tionen erfolgen. Eine derartige Zurückführung ist jedoch überflüssig, so- 
fern die skizzierte Stützungstheorie und auch die noch zu schildernde Test- 
theorie Hackings, die ebenfalls auf den Likelihood-Begriff aufbaut, als 
akzeptabel erscheint. Denn dann braucht man nicht an%unehmen> daß mehr als 
ein Einzelfall eines Versuchstyps vorgekommen ist . 

Diese letzte Behauptung wird verständlich, wenn man sich an den Be- 
griff des zusammengesetzten Versuchs n-tet Stufe zurückerinnert. Wenn ein 
Statistiker eine Hypothese gegen eine andere testet und dafür 150 Experi- 
mente anstellt, von denen er annimmt, daß sie unabhängig sind und Wieder- 
holungen desselben Typs T von Experimenten bilden, so brauchen wir 
diese seine Denkweise nicht wörtlich zu übernehmen. In der Testtheorie 
können wir die relative Likelihood zweier kombinierter Propositionen be- 
stimmen, die sich auf einen einzigen zusammengesetzten Versuch vom Typus T f 
stützt. Dieser Versuch besteht aus 150 Experimenten des Typs T ; es ist 
dabei gleichgültig, ob die Experimente unabhängig sind oder nicht. Auf 
diese Weise lassen sich Hypothesen über sich ändernde Chancen überprü- 
fen. In der kombinierten Proposition enthält die durch D repräsentierte 
statistische Hypothese diesmal eine Aussage über sich ändernde Chancen. 
(Dieser Hypothese kann aber natürlich eine Alternativhypothese entgegen- 
gestellt werden, die gleichbleibende Chancen behauptet.) Das Epidemiebei- 
spiel gibt uns dafür wieder eine Illustration. Der 5 Versuch* wird so rekon- 
struiert, daß er sich über den ganzen Verlauf der Epidemie erstreckt; und 
die Beobachtungsdaten werden in entsprechender Weise rekonstruiert. 
Wenn die Epidemie 30 Tage währt, und genau die Information zur Ver- 
fügung steht, daß am dritten Tag 20 neue Infektionen stattgefunden haben, 
am fünften Tag 60 neue Infektionen, und analog für den achten bis vier- 
zehnten sowie einundzwanzigsten bis dreißigsten Tag entsprechende Be- 
richte vorliegen, so wird man all dies in E einsetzen und für die restlichen 
11 Tage annehmen, es habe irgendetwas stattgefunden. Es ist an keiner Stelle 
erforderlich, von einer unbegrenzten Folge von derartigen Folgen von 30 
Tagen zu sprechen. 

7.c Versuchstypen. Zwar brauchen wir nie anzunehmen, daß mehr als 
ein Versuch einer bestimmten Art stattgefunden hat, wenn wir den Begriff 
„Versuch vom Typ T“ in der geschilderten Allgemeinheit verwenden. 
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Doch entsteht in jeder Anwendung das Problem, die Versuche einer be- 
stimmten Art adäquat zu beschreiben. Ein generelles Rezept dafür dürfte 
nicht existieren. Praktische Probleme treten insbesondere dann auf, wenn 
die Versuche in bestimmter Weise gestört worden sind. Beispiele: (a) Je- 
mand will eine Hypothese über die Farbverteilung der Tochtergeneration 
einer bestimmten Pflanzengattung überprüfen und streut 20 Samen aus. 
Drei davon zertritt er durch Unachtsamkeit und merkt dies auch, (b) Ein 
Psychologe nimmt einen Test durch Befragung von Versuchspersonen vor. 
Während der Durchführung des Tests erkranken einige dieser Personen, 
(c) Ein Physiker oder ein Chemiker macht eine Reihe von Experimenten, 
um eine Hypothese zu testen. Einige dieser Experimente kann er nicht zu 
Ende führen, weil er weggeholt wird oder einen Telefonanruf bekommt. 

Was für ein Versuch liegt hier jeweils vor und was sind die möglichen 
Resultate eines solchen Versuchs ? Manchmal wird es sich als zweckmäßig 
erweisen, die nicht zu Ende geführten Testversuche einfach unberücksich- 
tigt zu lassen. Manchmal dürfte es adäquater sein, das Gesamtexperiment als 
nicht vollzogen zu betrachten und es zu wiederholen. Aber dies sind nicht 
die einzigen Möglichkeiten. Im ersten Beispiel könnte der Experimentator 
etwa beschließen, statt von der erfolgreichen Aussaat von nur 17 Pflanzen 
zu sprechen, davon auszugehen, daß sein Versuch in der Aussaat von 
20 Pflanzen bestand, wobei jedoch das sichere Wissen hinzutritt, daß drei 
davon nicht keimen werden. 

Es erscheint nicht als sinnvoll, an dieser Stelle einzuhaken und absolute 
Präzision anzustreben. Eher dürfte es vernünftig sein, derartige Fälle zum 
Anlaß zu nehmen, um vor einer Inflation an Präzision zu warnen. 

Im übrigen sollte mit diesen paar Bemerkungen darauf aufmerksam 
gemacht werden, daß sich eine pragmatische Relativierung des Begriffs des 
Versuchstyps nicht wird umgehen lassen. 

Die Analyse eines weiteren wichtigen Grundbegriffs steht noch aus. Da 
er von zentraler Bedeutung ist, soll ihm ein eigener Abschnitt gewidmet 
werden. 

8. Zufall, Grundgesamtheit und Stichprobenauswahl 

Der Begriff der Zufälligkeit (randomness) kommt vor allem in zwei 
Kontexten vor. Es wird von zufälligen Auswahlen und von zufälligen Stich- 
proben geredet. Schon in der naivsten Form eines typischen statistischen 
Schlusses wird in intuitiver Weise von diesen Begriffen Gebrauch gemacht: 
Man möchte einen Rückschluß auf eine Gesamtheit machen und untersucht 
zu diesem Zweck eine repräsentative Stichprobe. Wenn r die relative Häufig- 
keit derjenigen Elemente der Stichprobe ist, die das Merkmal F besitzen, so 
nimmt man an, daß r auch ungefähr die relative Häufigkeit von F in der Ge- 
samtheit sein wird. Der Schluß ist nur solange überzeugend, als man die 
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Stichprobe für wirklich repräsentativ halten kann. Und sie ist nur dann reprä- 
sentativ, wenn sie eine zufällige Stichprobe darstellt und nicht eine solche, 
die auf einem tendenziösen Auswahlverfahren beruht; mit anderen Worten, 
die Auswahl der Elemente der Grundgesamtheit, welche zu der Stichprobe 
führten, muß eine Zufallsauswahl gewesen sein, damit der Schluß haltbar war. 

Diese kurze Reflexion zeigt bereits, daß zufällige Auswahl und nicht zu- 
fällige Stichprobe der grundlegende Begriff ist. Bei dem Versuch, eine Klärung 
des Zufallsbegriffs herbeizuführen, darf man sich daher nicht von den Be- 
griffen der Grundgesamtheit und der Stichprobe hypnotisieren lassen, son- 
dern muß die Aufmerksamkeit auf das Auswahlverfahren richten. 

Am besten unterscheidet man zwei Fragegruppen: 

(A) Sinnfragen , welche die Klärung (Explikation) des Zufallsbegriffs be- 
treffen; 

(B) Testprobleme z. B. die folgenden: Wie testet man Behauptungen von 
der Art, daß eine Auswahl zufällig war bzw. daß eine Stichprobe eine zufäl- 
lige Stichprobe ist ? 

(B) gehört in die Testtheorie. Hier interessiert nur (A). Offenbar setzt 
die Inangriffnahme des Testproblems die Lösung der Explikationsaufgabe 
voraus; denn man muß ja wissen, was man denn überhaupt testen soll. 

Innerhalb von (A) können wir wieder vier Typen von Fragen unter- 
scheiden : 

(1) Was ist die Bedeutung (sind die Bedeutungen) von „zufällig“ in der 
deutschen Sprache ? Diese Frage ist für unser Problem ohne Relevanz. 

(2) Wie ist der mathematische Begriff zu definieren, der sich auf unend- 
liche Folgen bezieht und dem alltäglichen Begriff am nächsten kommt? 
Auch diese Frage ist hier ohne Interesse. Sie hat übrigens eine definitive 
befriedigende Lösung durch A. Church erfahren. 

(3) Was ist unter einer zufälligen Auswahl im statistischen Sinn zu ver- 
stehen ? 

(4) Welche Merkmale von zufälligen Stichproben sind für statistische 
Schlüsse wesentlich? 

(3) und (4) sind für uns von Bedeutung. Nach Hackings Auffassung ist 
die Frage (3) leicht zu beantworten: Der Begrijf der Zufälligkeit ist defla- 
torisch auf den Begriff der Unabhängigkeit von Versuchen %urück%uf Uhren. Im 
Gegensatz zu einer weit verbreiteten Auffassung gibt es dann gar kein 
, Problem der randomness* sui generis; denn dieser Unabhängigkeitsbe- 
griff ist ja früher definitorisch auf den Begriff der Unabhängigkeit von Ereig- 
nissen zurückgeführt worden, der seinerseits allein mittels des Begriffs der 
Chance definiert wurde. Insbesondere hört auch (B) auf, eine eigene Fragen- 
gruppe zu sein: Das Problem, Stichproben daraufhin zu überprüfen, ob sie 
auf einer Zufallsauswahl beruhen, ist zurückgeführt auf das Problem, ob 
eine bestimmte statistische Hypothese, nämlich eine Unabhängigkeitshypo- 
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these, richtig ist. Es gibt nicht zusätzlich zu den üblichen statistischen Tests 
eine eigene Kategorie von Zufallstests . 

Da dies vielfach bestritten werden dürfte, sei hier ein ganz kurzer Vor- 
griff auf die Testtheorie eingeschoben. Es könnte nämlich darauf hinge- 
wiesen werden, daß zwar eine statistische Hypothese stets gegen eine mit 
ihr rivalisierende Hypothese getestet werden müsse, daß hingegen bei der 
Überprüfung der Unabhängigkeit keine rivalisierende Hypothese existiere. 
Das erste ist, wie wir noch sehen werden, richtig. Das zweite ist jedoch 
falsch (obwohl die Lehrbücher der Statistik häufig einen gegenteiligen Ein- 
druck vermitteln). Die Unabhängigkeitsannahme bildet meist einen Be- 
standteil des statistischen Datums. Dieser Bestandteil der akzeptierten 
statistischen Oberhypothese wird in Frage gestellt, sobald gewisse experi- 
mentelle Ergebnisse den 1 Verdacht nahelegen, daß eine bestimmte Art von 
Abhängigkeit besteht. Die Annahme über diese Art von Abhängigkeit — 
evtl, eine Annahme über Klassen von Abhängigkeiten bestimmter Art — 
bildet die Alternativhypothese, gegen welche die Unabhängigkeitsbehaup- 
tung zu testen ist. 

Die zu definierenden Begriffe werden nun in der folgenden Reihenfolge 
eingeführt: 

Wenn die Versuche (vom Typ T an einer Anordnung X) einer Ver- 
suchsfolge unabhängig sind, so soll die Folge der Resultate der Versuche 
dieser Folge zufällig genannt werden. Jede Folge solcher zufälliger Resul- 
tate heiße auch eine Zufallsfolge . 

Das nächste sind die Begriffe einer Grundgesamtheit oder Population 
(population) und der Stichprobenauswahl (sampling). Eine Grundgesamtheit 
ist nichts weiter als eine Klasse bestimmter voneinander unterschiedener 
Dinge. Sie ist geschlossen > wenn sie eine feste Anzahl von Elementen hat (mag 
diese auch aus praktischen Gründen nur annähernd bestimmbar sein). Eine 
offene Grundgesamtheit liegt vor, wenn die Gesamtheit ihrer Elemente zu 
keinem gegebenen Zeitpunkt ermittelt werden kann. Beispiel: Die Klasse 
der heute lebenden Kaninchenzüchter Deutschlands bildet eine geschlossene 
Grundgesamtheit; die Klasse aller vergangenen, lebenden und künftigen 
Kaninchenzüchter auf der Welt hingegen macht eine offene Grundgesamt- 
heit aus. Nur geschlossene Gesamtheiten sollen betrachtet werden. Vom 
problematischen Begriff der unendlichen Grundgesamtheiten soll kein Ge- 
brauch gemacht werden. (Es war einer der Mängel der Theorie von R. A. 
Fisher, daß er für die Grundlegung seiner Theorie Stichprobenauswahlen 
aus aktual-unendlichen Gesamtheiten benötigte). 

Eine Stichprobenauswahl aus einer Grundgesamtheit vornehmen soll heißen, 
eine Folge von Elementen aus der Grundgesamtheit auszuwählen. Es gibt 
Auswahlen mit Ersetzung und solche ohne Ersetzung. Diese beiden Fälle, 
welche den intuitiven Hintergrund für den Unterschied zwischen der 
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Binomialverteilung und der hypergeometrischen Verteilung bilden, müssen 
nochmals kurz betrachtet werden. 

Es sei eine geschlossene Grundgesamtheit G gegeben. Es werde eine 
experimentelle Anordnung X konstruiert, so daß die folgenden Bedingun- 
gen erfüllt sind: 

(a) Die Versuche vom Typ T an X bestehen in der Auswahl von Ele- 
menten aus G mit nachträglicher Ersetzung. 

(b) die einzelnen Versuche sind voneinander unabhängige 

(c) für alle Elemente aus G besteht Chancengleichheit dafür, bei einem Ver- 
such vom Typ T gewählt zu werden. 

Wir sagen dann, es liege ein Zufallsauswahlverfahren mit Ersetzung vor. 
Die Folge der dabei erhaltenen Resultate heißt zufällige Stichprobe mit Er- 
setzung. 

Bei der Beschreibung des Zufallsauswahlverfahrens ohne Ersetzung sind die 
folgenden Modifikationen vorzunehmen: In (a) muß es heißen, daß die Aus- 
wahl ohne nachträgliche Ersetzung erfolgt; (b) bleibt unverändert; in (c) 
wird die entsprechende Chancengleichheit für noch nicht gewählte Elemente 
aus G verlangt. Die Folge der erzielten Resultate ist eine zufällige Stichprobe 
ohne Ersetzung. 

Wesentlich ist, daß das Prädikat „Z u föHig“ der Stichprobe erst indirekt zu- 
geschrieben wird. Dagegen wird dieses Prädikat dem Auswahlverfahren direkt zuge- 
schrieben. Da bei der Definition nur die Begriffe der Chance und der Unab- 
hängigkeit benützt werden, kann die Hypothese, daß eine bestimmte 
Stichprobe zufällig ist, als eine statistische Hypothese aufgefaßt werden. Ins- 
besondere können die Überlegungen über Stützung und Test statistischer 
Hypothesen darauf angewendet werden. Sollte z. B. der Verdacht auf- 
tauchen, daß die Versuche nicht unabhängig waren oder daß für die Wahl 
der Elemente keine Chancengleichheit bestand, so ist dies per definitionem ein 
Verdacht dafür, daß die Folge der Resultate keine zufällige Stichprobe 
bildet. 

Anmerkung. Für negative Feststellungen bezüglich der Zufallseigenschaft 
einer Stichprobe ist nicht immer ein komplizierter statistischer Test erforderlich. 
Beispiele : 

(1) Jemand will eine zufällige Stichprobe (mit Ersetzung) für die Einwohner 
einer Stadt bilden. Er benützt dazu das amtliche Telefonbuch und denkt sich ein 
Zufallsauswahlverfahren für die darin eingetragenen Personen aus. Nicht alle 
Einwohner haben ein Telefon. Man weiß daher, daß die gewonnene Stichprobe 
keine zufällige Stichprobe sein kann. Denn wenn n die Zahl der Einwohner ist 
und k < n die Zahl der Eintragungen im Telefonbuch, so müßte bei jeder Wahl 
die Chance für eine Person, gewählt zu werden, \\n sein, während sie tatsächlich 
für die eingetragenen Personen \\k ist und für die restlichen 0. Es besteht also 
sicher keine Chancengleichheit. 

(2) Jemand behauptet, eine Folge von Resultaten bilde eine zufällige Stich- 
probe ohne Ersetzung. Ein Objekt komme darin mindestens zweimal vor. Man 
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weiß, daß die Behauptung unrichtig ist. Denn mehrmaliges Vorkommen eines 
Individuums ist höchstens bei zufälligen Stichproben mit Ersetzung möglich. 

Am Beispiel des Begriffs der Stichprobenauswahl mit Ersetzung soll ein 
wichtiger statistischer Schluß erläutert werden, obwohl dies eigentlich erst 
in die Testtheorie gehört. (Für große Grundgesamtheiten kann die Aus- 
wahl mit Ersetzung als Approximation für die Auswahl ohne Ersetzung be- 
trachtet werden. Dies ist zweckmäßig, weil die erstere technisch leichter zu 
handhaben ist als die letztere.) 

Die Grundgesamtheit G habe n Elemente; k davon besitzen die Eigen- 
schaft F. Angenommen, es stehe uns ein Zufallsauswahlverfahren mit Er- 
setzung für G zur Verfügung. Dann ist, wie man leicht erkennt, die Chance, 
bei einer Wahl ein Individuum mit dieser Eigenschaft zu erhalten, gleich 
p = k\n. (Hinweis: a ijc seien die k Individuen mit der Eigenschaft 

F. Es handelt sich um die Bestimmung der Chance für das Ereignis, daß 
genau eines dieser Individuen gewählt wird. Wegen des Additionsprinzips 
ist dies gleich der Summe der Chancen für die Wahl eines dieser k Individuen. 
Nach Voraussetzung aber besteht Chancengleichheit.) 

Dieser einfache Sachverhalt liegt dem sog. Schluß von der zufälligen Stich- 
probe auf die Gesamtheit zugrunde. Bei diesem Schluß ist n bekannt, k hinge- 
gen unbekannt. Man prüft die Hypothese, daß bei dem Zufallsauswahlver- 
fahren die Chance für das Vorkommen von F gleich p ist. Nach einer Grund- 
regel der Testtheorie hat man eine derartige Hypothese gegen eine rivali- 
sierende Hypothese zu testen. Der Test liefert automatisch ein Testverfahren 
für die relative Häufigkeit von F in der Gesamtheit; denn k — p • n. Das 
Verfahren funktioniert nur solange, als man an der statistischen Oberhypo- 
these, wonach es sich um ein Zufallsauswahlverfahren handelt, festhält. 
Wie immer, kann man natürlich diese Oberhypothese auch in Zweifel ziehen 
und einer Prüfung unterwerfen. 

Wir können sofort eine schärfere Behauptung formulieren. Dazu neh- 
men wir an, unsere Oberhypothese sei richtig und wir haben mittels un- 
seres Auswahlverfahrens eine zufällige Stichprobe gewonnen. Die relative 
Häufigkeit der Individuen mit der Eigenschaft F in der Stichprobe sei r. 
Dann ist , wie die Rechnung ergibt, W {F) = r die nach dem Likelihood-Prin- 
Z}p am besten gestützte statistische Teilhypothese. „ W(F )“ bedeutet hier natür- 
lich: „die Chance, mit dem benützten Auswahlverfahren ein Individuum 
der Eigenschaft F zu erhalten“. Von einer 7>/7hypothese sprechen wir des- 
halb, weil wir ja gar keine vollständige Verteilungshypothese untersuchen, 
sondern bloß eine Hypothese, die etwas über die Wahrscheinlichkeit, F an- 
zutreffen, aussagt. 

Es ist wichtig zu beachten, an welcher Stelle der Schluß eine hypotheti- 
sche Komponente enthält und an welcher Stelle er dies nicht tut. Der Über- 
gang von der Stichprobe auf die Grundgesamtheit ist vollkommen unproblematisch 
und trivial: Wenn sich ergibt, daß W(F) = r die am besten gestützte Teil- 
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hypothese ist, dann ist automatisch die Hypothese, daß die relative Häufig- 
keit der F’s in der Grundgesamtheit gleich r ist, am besten gestützt (dies ist 
eine Folge der obigen Definitionen). Aber natürlich kann diese das Stich- 
probenresultat betreffende statistische Hypothese falsch sein ! Dieser Gefahr 
sind wir immer ausgesetzt : Das am besten Gestützte braucht nicht richtig 
zu sein. Außerdem kann die im statistischen Datum enthaltene Oberhypo- 
these unrichtig sein. Dann bricht selbstverständlich das ganze Verfahren 
zusammen. 

Diese beiden Gefahren muß man im Auge behalten. Falsch wäre es aber 
zu glauben, daß dies eine Besonderheit des statistischen Schlusses von der 
Stichprobe auf die Gesamtheit ist. Es kann ja stets der Fall eintreten, daß 
erstens die untersuchte Hypothese unrichtig ist, obwohl sie die am besten 
gestützte ist, oder daß sich zweitens in die statistischen Daten gewisse 
falsche Annahmen eingeschlichen haben. 

Eine zufällige Stichprobe mit Ersetzung kann wegen des geschilderten 
Sachverhaltes als typisch für die Grundgesamtheit angesehen werden. Den 
Wert r von W(F ), der sich aus der obigen Likelihood-Betrachtung ergibt, 
könnte man als die beste Schätzung der relativen Häufigkeit von F in der Grund- 
gesamtheit bezeichnen. 

Die Wendung „typisch für die Grundgesamtheit“ wird aber häufig noch 
in einem anderen Fall gebraucht, der von diesem scharf zu unterscheiden 
ist 59 . Dies sei an einem Beispiel erläutert: Man möchte herausbekommen, 
wieviele Einwohner Münchens eine Eigenschaft E besitzen. Man nimmt 
dazu das Telefonbuch Münchens, sondert daraus eine zufällige Stichprobe 
(im oben definierten Sinn) aus und gewinnt nach dem eben geschilderten 
Verfahren die beste Schätzung für die relative Häufigkeit r der im Telefon- 
buch angeführten Einwohner Münchens mit der Eigenschaft E. Nicht alle 
Leute haben ein Telefon. Wir können aber gute Gründe für die Annahme 
besitzen, daß die relative Häufigkeit der in München wohnhaften Personen, 
welche die Eigenschaft E haben, identisch ist mit der relativen Häufigkeit 
der im Münchner Telefonbuch angeführten Personen mit dieser Eigenschaft. 
Die Stichprobe wird dann als typisch für die Einwohner Münchens bezeich- 
net. 

Offenbar liegt in diesem letzten Fall ein komplizierterer Sachverhalt vor : 
Eine Stichprobe S ist nach Voraussetzung eine Zufallsstichprobe für die 
Grundgesamtheit G x ; G x ist eine Teilklasse von G 2 . Ferner wird eine wei- 
tere Prämisse eingeschoben, nämlich daß G x in dem Sinn für G 2 typisch ist, 
daß die relativen Häufigkeiten des Vorkommens von E in beiden Gesamt- 
heiten dieselben sind. Diese Prämisse kann auf sicheren Informationen ba- 
sieren. Meist aber wird sie selbst auf statistischen oder sonstigen Hypothesen 
beruhen. Im letzteren Fall kann sie aus vielerlei Gründen falsch sein. Ent- 

59 Vgl. Hacking, [Statistical Inference], S. 126. 
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deckt man nachträglich ihre Unrichtigkeit, so wird man die Stichprobe nicht 
mehr als für die Gesamtheit typisch ansehen. Daraus darf man jedoch nicht 
mehr den Schluß ziehen, daß die Stichprobe keine Zufallsstichprobe war. 
Der Fehler bestand ja nicht im Übergang von S zu G ly sondern im Übergang 
von G 1 zu G 2 . Die Hypothese, daß G x für G 2 repräsentativ ist, wäre sicher- 
lich höchst problematisch und vermutlich falsch, wenn man das im obigen 
Beispiel geschilderte Verfahren dazu benützen wollte, die relative Häufig- 
keit der Einwohner Münchens zu ermitteln, die ein monatliches Mindest- 
einkommen von 2500, — DM haben. 

Warum wird dieses komplizierte Verfahren überhaupt angewendet? 
Dafür gibt es zwei völlig verschiedene Gründe : 

(1) Wenn man es, wie im Beispiel, mit einer geschlossenen Gesamtheit 
zu tun hat, sind praktisch-technische und ökonomische Gründe maßgebend. 
Es kann zu kostspielig oder zu schwierig sein, ein Zufallsauswahlverfahren 
für die eigentlich interessierende Gesamtheit G 2 zu entwickeln. Die Ge- 
winnung zufälliger Stichproben aus einer repräsentativen Teilgesamtheit 
G 1 ist einfacher und billiger. 

(2) Wenn man es dagegen mit offenen Populationen zu tun hat, bildet 
dieses zweite Verfahren sogar prinzipiell die einzige Möglichkeit eines Stich- 
probenverfahrens. Zunächst ein Beispiel: Wenn man z. B. an einer Ver- 
suchsstation über Unmengen von Mikroorganismen oder von Samen einer 
Pflanzenart verfügt, so kann man durch das Stichprobenverfahren nur mittels 
Hintereinanderschaltung beider Schlüsse etwas über diese Art von Mikro- 
organismen oder von Pflanzen überhaupt erfahren. Auf Grund der Unter- 
suchung einer zufälligen Stichprobe aus dem verfügbaren Vorrat erschließt 
man etwas über Eigenschaften der Population, über welche man verfügt . Ein 
ganz neuer Schluß ist es, wenn man von da aus etwas über die Gesamtpo- 
pulation überhaupt (die Mikroorganismen bzw. Pflanzen dieser Art) er- 
schließt, weil man die verfügbare Population als für die Gesamtpopulation 
typisch ansieht. Warum ist hier diese Hintereinanderschaltung zweier Arten 
von Schlüssen wesentlich? Die Antwort ist höchst einfach: Es gibt keine zu- 
fälligen Stichprobenauswahlen aus offenen Populationen . Denn die Chance, einen 
Organismus (Samen) zu wählen, der erst in künftigen Jahren existieren wird, 
ist stets gleich 0. 

Ein wichtigeres Beispiel gibt die Bestimmung der Sterbewahrschein- 
lichkeiten für die verschiedenen Berufsgruppen. Wenn man etwa die durch- 
schnittliche Lebenserwartung eines bayerischen Schneiders ermitteln will, 
wird man sich auf eine zufällige Stichprobe aus der Klasse der bayerischen 
Schneider, die bis zu einem bestimmten Zeitpunkt gestorben sind, be- 
schränken. Aber die Tafel der Sterbewahrscheinlichkeit soll natürlich zur 
Information für die Lebenden dienen, nicht zur Information für die Toten. 
Die letzteren brauchen eine solche nicht mehr. 
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Von den bisherigen Fällen ist noch ein ganz anderer Fall zu unterschei- 
den. Es handelt sich um die sog. irreführenden Stichproben. Dies sind Stichpro- 
ben, welche zwar aufgrund eines Zufallsauswahlverfahrens zustande kamen, 
aber trotzdem nicht für die Gesamtheit typisch sind y wie man aufgrund anders- 
artiger Informationen erfahren hat. Wie diese Informationen aussehen kön- 
nen, soll gleich an einem Beispiel gezeigt werden. Zunächst seien nochmals 
die Gründe dafür zusammengestellt, daß ein Schluß von der Stichprobe auf eine 
Gesamtheit %u verwerfen ist: 

(1) weil die Stichprobe keine zufällige Stichprobe ist, die Gewinnung ihrer 
Elemente also nicht auf einem Zufallsauswahlverfahren beruht; 

(2) weil die Stichprobe nur eine Zufallsstichprobe für eine Teilpopula- 
tion bildet, die ihrerseits nicht repräsentativ ist für die Gesamtpopulation; 

(3) weil die Stichprobe zwar eine zufällige, aber doch irreführende Stich- 
probe der Grundgesamtheit bildet. 

Nun zum Beispiel für den dritten Fall. Es werde wieder die relative 
Häufigkeit einer Eigenschaft E unter den Einwohnern Münchens unter- 
sucht. Diese bilden die Population G. Man greift eine zufällige Stichprobe S 
aus G heraus und prüft diese. Im nachhinein — dieses „nachträglich“ ist 
wesentlich! — macht man die 3 zufällige* Feststellung, daß alle Personen aus 
S auch im Telefonbuch stehen. Nun habe man z. B. anderweitige gute 
Gründe 60 für die Annahme, daß die relative Häufigkeit der im Telefonbuch 
stehenden Personen mit der Eigenschaft E erheblich größer ist als die rela- 
tive Häufigkeit der Elemente aus G mit dieser Eigenschaft E. (Das wird 
z. B. der Fall sein, wenn E das Merkmal ist, ein Mindesteinkommen von 
monatlich 3000, — DM zu beziehen; oder einer Familie anzugehören, die 
eine Wohnung von mindestens 4 Zimmern bewohnt; oder bei den nächsten 
Landtags wählen die FDP zu wählen). In diesem Fall wird die Stichprobe als 
irreführend bezeichnet. Sollte sich als relative Häufigkeit von E in S der 
Wert r ergeben, so wird man vernünftigerweise daran zweifeln, daß r auch 
die relative Häufigkeit der E’s in G ist, sondern wird annehmen, daß diese 
relative Häufigkeit kleiner ist als r. Diese Überlegung soll noch präzisiert 
werden. 

Dazu ist eine Vorfrage zu klären. Wieso kann sich eine einwandfreie 
Zufallsstichprobe nachträglich als irreführend erweisen? Es ist nur ein 
Schein von Paradoxie, der zu dieser Frage führt. Es ist dieselbe scheinbare 
Paradoxie, die z. B. dann gegeben ist, wenn man mit einem symmetrisch ge- 
bauten Würfel in 12 Würfen achtmal eine 6 würfelt. Sehr Unwahrschein- 
liches kann sich immer ereignen; und in diesem Fall hat es sich tatsächlich 
ereignet. Ähnlich in unserem Beispiel. Wenn das Verfahren tatsächlich ein 

60 Wir benützen mit Absicht diese etwas vage Wendung. Es soll damit nur 
ausgedrückt werden, daß die Annahme anderweitig bestätigt sein muß. Die 
Analyse dieser Bestätigung interessiert hier nicht. Es kann sich u. U. sogar um 
definitive Verifikation handeln. 
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Zufallsauswahlverfahren für G ist, so ist es außerordentlich unwahrschein- 
lich, daß eine — wie wir voraussetzen wollen: nicht zu kleine — Stichprobe 
nur zu solchen Leuten führt, die ein Telefon besitzen. Nachträgliche Prü- 
fung ergibt, daß dies dennoch der Fall ist. 

Wie aber, wenn wir nicht wissen, daß eine Stichprobe irreführend ist ? 61 
Dann begehen wir beim Schluß auf die Gesamtheit einen Fehler. Abermals 
ist es wichtig, den Fehler nicht an falscher Stelle zu lokalisieren. Nicht der 
Schluß von der Stichprobe auf die Gesamtheit ist fehlerhaft. Vielmehr liegt 
hier einer der Fälle vor , wo die (aufgrund der Likelihood-Regel) am besten ge- 
stützte Hypothese falsch ist . Die relative Häufigkeit der E’s in S ist nicht 
gleich der Chance, ein Element mit dem Merkmal E zu wählen. 

Um den Sachverhalt besser durchschauen zu können, sei eine kurze 
formale Präzisierung gegeben. G , S und E haben die angegebenen Bedeu- 
tungen. (für E werde etwa die Eigenschaft genommen, die FDP zu wählen). 
B bezeichnet das Ereignis, daß eine ausgewählte Person im Telefonbuch 
steht. Zu den statistischen Daten gehört die Hypothese, daß S eine zufällige 
Stichprobe aus G darstellt. Hinzu treten die folgenden drei zusätzlichen 
Informationen : 

(1) Die relative Häufigkeit von E in der Stichprobe S ist^>; 

(2) jedes Element von S ist ein B; 

(3) W(E y B) ^ W(E) +d (mit d > 0). 

Die dritte Aussage beinhaltet die Feststellung, daß die relative Häufig- 
keit von E unter den Elementen von B um mindestens den Betrag d die 
relative Häufigkeit von E in der Grundgesamtheit übersteigt. (In der Praxis 
wird so wie in der obigen inhaltlichen Schilderung häufig keine derartige 
quantitative Präzisierung möglich sein.) 

In bezug auf die beiden Merkmale E und B führt ein einzelner Versuch 
zu vier Möglichkeiten, deren Wahrscheinlichkeiten die folgenden Werte 
haben: 

W(E hB) = a y W(E a — i B) — b y lF(-i EaB) = c, und daher: 

JV(— \E a— \B) = 1 — (a+b+c). Ferner gilt W{E) = a+b, W(B) = a+c. 

Wenn man die Definition der bedingten Wahrscheinlichkeit benützt, 
so erhält man aus (3) : 

( 4 ) ^T7^ + * + ^ 

Das Zusatzwissen besagt also, daß jene Wertekombinationen von a y b 
und c auszuschließen sind, die gegen die Ungleichung (4) verstoßen. Diese 
einschränkende Bedingung wird der Likelihood-Regel auferlegt. Die (kom- 
plizierte) Rechnung ergibt, daß p (d.h. die relative Häufigkeit von E in S) 

61 Dies soll natürlich heißen, daß eine geeignete Information uns davon über- 
zeugen würde , daß sie tatsächlich irreführend ist. 
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nicht gleich a + b (d. h. W(E) bzw. die relative Häufigkeit von E in G) ist, 
sondern daß gilt: p> a + b y was intuitiv zu erwarten war. 

Dieses Resultat gilt natürlich nur dann, wenn die Bestandteile des Da- 
tums selbst nicht angefochten werden. In der Praxis wird dies vermutlich 
höchstens dann der Fall sein, wenn die Stichprobe klein ist. Sollte die Stich- 
probe dagegen ziemlich groß sein, so wird man die Daten selbst einer Prü- 
fung unterziehen, wobei die Prüfung sich auf zwei Punkte konzentrieren 
wird; denn man wird entweder den Verdacht äußern, daß S keine Zufalls- 
stichprobe ist oder daß die Ungleichung (3) falsch ist. 

9. Die Problematik der statistischen Testtheorie, erläutert 
am Beispiel zweier konkurrierender Testtheorien 

9.a Vorbetrachtungen. Ein warnendes historisches Beispiel. Wann 
soll eine statistische Hypothese akzeptiert und wann soll sie verworfen 
werden ? Bevor wir auf eine Diskussion dieser Frage eingehen, sei auf einige 
wichtige Punkte hingewiesen. 

(I) In den herkömmlichen statistischen Testtheorien wird fast immer nur 
die Frage erörtert, wann eine statistische Hypothese zu verwerfen sei. Was 
nicht als verworfen anzusehen ist, das gilt eo ipso als akzeptiert. 

Diese Einstellung ist höchst bedenklich. Ihr liegt die stillschweigende 
Voraussetzung zugrunde, daß Annahme und Verwerfung eine vollständige Dis- 
junktion bilden . Das ist weder theoretisch überzeugend noch entspricht es der 
Einstellung des realistisch denkenden Statistikers. Die vorliegenden Beob- 
achtungsresultate können so geartet sein, daß sie als nicht hinreichend er- 
scheinen, um eine statistische Hypothese zu verwerfen. Eben diese Daten 
können es aber als bedenklich erscheinen lassen, die Hypothese zu akzep- 
tieren. In derartigen Fällen wird es das vernünftigste sein, die Entscheidung 
vorläufig %u suspendieren und das Resultat künftiger Beobachtungen ab^uw arten. 
Schon die Frage: „Ist h zu akzeptieren oder zu verwerfen ?“ ist Ausdruck 
intellektueller Ungeduld. Die Ungeduld ist in vielen Fällen begreif lieh, aber 
nichtsdestoweniger nicht rational zu rechtfertigen. Der Wissenschaftstheo- 
retiker sollte sich nicht dazu verleiten lassen, diejenigen zu ermuntern, die 
dem Statistiker die Pistole an die Brust setzen wollen. 

Im folgenden wird hauptsächlich die 5 V erwerfungsproblematik c er- 
örtert werden. Dies ist nur ein Teil der Testproblematik; denn Nichtver- 
werfung ^ Annahme. 

Hinter der Gleichsetzung von Annahme und Nichtverwerfung steckt aller- 
dings häufig nur ein harmloser terminologischer Beschluß. Nicht harmlos wird 
die Sache erst, wenn man den Beschluß nicht als solchen kenntlich macht und da- 
durch sprachliche Mißverständnisse erzeugt. Wir kommen auf diesen Punkt in 
9. c zu sprechen. 
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(II) Ebenso wie beim Begriff der Schätzung kann und muß auch beim 
Begriff der Verwerfung zwischen einem rein theoretischen und einem prak- 
tischen Begriff unterschieden werden : 

(1) Mittels des theoretischen Begriffs soll die Frage beantwortet werden, 
wann eine statistische Hypothese aufgrund vorliegenden Beobachtungs- 
materials als rational verwerfbar anzusehen ist. 

(2) Falls Wertgesichtspunkte hereinspielen — insbesondere wenn mone- 
täre oder sonstige potentielle Verluste drohen — , kann die Verwerfung 
selbst dann als ratsam erscheinen, wenn die Daten aus rein theoretischen 
Gründen keine Verwerfung nahelegen. Das Problem, um welches es hier geht, 
besteht darin, relativ auf die möglichen Lebenssituationen gute 1 Ver- 
werfungsstrategen zu entwerfen. 

Im folgenden wird es uns nur um den theoretischen Begriff gehen 62 . 

(III) Der theoretische Begriff der Verwerfung fällt nicht mit dem Begriff 
der Widerlegung zusammen und schon gar nicht mit dem der Inkonsistez. Ob 
ein System von Aussagen konsistent (widerspruchsfrei) oder inkonsistent 
ist, kann auf rein logischem Wege ermittelt werden; Erfahrung wird dazu 
nicht benötigt. Konsistenz in diesem logischen Sinn setzten wir im gegenwärtigen 
Kontext stets voraus . Wenn man es mit empirischen Hypothesen und Theorien 
zu tun hat, so ist der wissenschaftstheoretisch viel interessantere Begriff der 
der empirischen Widerlegung oder der empirischen Falsifikation. Eine 
Hypothese ist empirisch widerlegbar nur relativ auf gegebene Erfahrungsdaten . 
Auch hier liegt zwar ein formaler Widerspruch vor. Aber es ist keine In- 
konsistenz der Hypothese selbst, sondern der Konjunktion, bestehend aus 
der Hypothese und dem Satz, welcher die Erfahrungsdaten beschreibt. Die 
Widerlegung gilt nur, sofern die Daten für unumstößlich gehalten werden. 

Bei statistischen Hypothesen kann, wie wir wissen, dieser Fall der em- 
pirischen Falsifikation nicht eintreten. Daher darf man auch von vornherein 
nicht erwarten, daß sich eine ein für allemal geltende Grenzlinie ziehen läßt 
zwischen der Klasse jener statistischen Hypothesen, die aufgrund verfüg- 
barer Daten zu verwerfen sind, und jenen, bei denen dies nicht der Fall ist. 
Dagegen ist es ein realistisches Unterfangen, danach zu streben, eine Schärfe- 
skala in bezug auf Verwerfung aufzustellen. 

Widerlegung ist etwas Endgültiges ; Verwerfung hingegen ist nichts 
Definitives, sondern etwas Provisorisches. Dies ist der entscheidende Unter- 
schied. Zwar ist auch empirische Falsifikation prinzipiell revidierbar. Aber 
diese Revidierbarkeit beruht auf der Revidierbarkeit der sog. Erfahrungs- 

62 Der Ausdruck „theoretisch“ bedeutet in diesem Kontext nur soviel wie: 
„unabhängig von Wertgesichtspunkten“. Diese Verwendung des Wortes „theo- 
retisch“ ist natürlich scharf zu unterscheiden von derjenigen, wonach als theore- 
tisch jene Begriffe bezeichnet werden, die in einer ,voll verständlichen 4 empiristi- 
schen Sprache (, Beobachtungssprache 4 ) nicht definierbar sind. Diesen letzteren 
Gebrauch legten wir zugrunde, als wir Chance eine theoretische Größe nannten. 
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daten, die stets auch hypothetische Komponenten enthalten. Wenn man da- 
gegen an den Beobachtungsberichten nicht zweifelt, daß es in Australien 
schwarze Schwäne gibt, dann ist der Satz „alle Schwäne sind weiß 44 unwider- 
ruflich empirisch falsifiziert. 

Bei statistischen Hypothesen liegen die Dinge völlig anders. Angenom- 
men, wir haben irgendwelche Verwerfungsregeln (deren genaue Natur im 
Augenblick keine Rolle spielt). Die Anwendung der Regeln auf eine sta- 
tistische Hypothese plus Beobachtungsbefund impliziere Verwerfung. Dann 
können stets neue Beobachtungen Rückgängigmachen der Verwerfung, d. h. 
Nichtverwerfung implizieren, ohne daß der ursprüngliche Befund ange- 
fochten wird. 

Hier haben wir die Situation vor uns, die im Fall strikter Allsätze un- 
denkbar wäre, nämlich daß neue empirische Befunde (ohne Revision der früher ge- 
wonnenen) zur Aufhebung einer früher vollzogenen Verwerfung führen können . Wir 
erinnern an das von Braithwaite gegebene anschauliche Bild aus 1. d: Sta- 
tistische Testverfahren können als Regeln aufgefaßt werden, wonach Hypo- 
thesen in zwei Körbe zu legen sind. Auf dem ersten Korb steht „verworfen 44 , 
auf dem zweiten Korb steht „für Erwägung weiterhin zugelassen 44 . Anwen- 
dung der Regeln auf neue Beobachtungsdaten kann nicht nur bewirken, 
etwas aus dem zweiten Korb herauszunehmen und in den ersten zu legen, 
sondern auch umgekehrt Hypothesen, die bereits im ersten Korb abgelegt 
worden sind, zurückzuholen. 

(IV) Wenn die Frage der Prüfung und Stützung von Theorien aufge- 
worfen wird, so hat man sich angewöhnt, nur an zwei Dinge zu denken: 
erstens an die zu testende Hypothese und zweitens an die verfügbaren rele- 
vanten Beobachtungsdaten. Als dritte Komponente haben wir das statisti- 
sche background knowledge in der Gestalt akzeptierter statistischer Hypo- 
thesen einbezogen. Bereits die vorangehenden Andeutungen dürften die 
Vermutung nahelegen, daß selbst dies noch unvollständig ist. Zumindest im 
statistischen Fall benötigt man noch etwas Viertes : eine Testtheorie oder ein 
System von Verwerfungsregeln . 

Würde es sich nur um die oben angedeutete Gradabstufung in bezug 
auf Schärfe (Stringenz) der Verwerfung handeln, so würde es genügen, 
diesen vierten Faktor in bezug auf den Grad zu erwähnen. Leider aber liegen 
die Dinge auch hier viel komplizierter: Es gibt keine allgemein anerkannte 
Testtheorie, sondern verschiedene miteinander unverträgliche Theorien 
dieser Art. Keine davon braucht in allen Situationen die beste zu sein. Es ist 
durchaus denkbar, daß je nach den pragmatischen Umständen eine andere Test- 
theorie vorzuziehen ist. Die Grundrelation der Verwerfungstheorie ist dann 
nicht die dreistellige Relation : „die Hypothese h ist aufgrund des Erfahrungs- 
datums e und des akzeptierten Hintergrundwissens b zu verwerfen 44 , sondern 
die vierstellige Relation: „die Hypothese h ist aufgrund des Datums e und 
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des akzeptierten Hintergrundwissens b bei Benützung der Testtheorie T. T. 
zu verwerfen“. 

Auf eine weitere Komplikation kommen wir im nächsten Punkt zu 
sprechen. 

(V) Es gibt eine prima facie recht plausible Annahme über die Ver- 
werfung. Sie kann so formuliert werden: „Verwirf eine statistische Hypo- 
these immer dann, wenn sie aufgrund verfügbarer Beobachtungsdaten sehr 
schlecht gestützt ist, d. h. wenn sie eine geringe Likelihood besitzt!“ Unter 
Vermeidung des technischen Likelihood-Begriffs würde die Annahme 
lauten: „Verwirf eine statistische Hypothese h , wenn sich das, was sich tat- 
sächlich ereignet, unter der Annahme der Richtigkeit von h nur sehr selten 
ereignet!“ 

Diese Annahme erscheint als plausibel. Sie ist dennoch falsch. Damit 
kommen wir zu dem angekündigten warnenden Beispiel. Mit diesem Bei- 
spiel verfolgen wir einen dreifachen Zweck: Erstens soll der Grund für 
einen Fehlschluß aufgezeigt werden, einen Fehlschluß, den man sehr leicht 
begehen kann und der zu einer unrichtigen Vorstellung vom Testen sta- 
tistischer Hypothesen führt. Zweitens soll im Zusammenhang mit der Auf- 
deckung des Fehlers der Unterschied zwischen isolierter Likelihood-Betrach- 
tung und komparativer Likelihood-Betrachtung verdeutlicht werden. Im 
Zusammenhang damit wird auch die Notwendigkeit einsichtig werden, 
nicht über einzelne Hypothesen zu befinden, sondern eine Auswahl zwi- 
schen verschiedenen miteinander rivalisierenden Hypothesen zu treffen. 
Drittens sollen im Rahmen dieser Diskussion einige wichtige Begriffe der 
Testtheorie in zwangloser und intuitiver Weise eingeführt werden. Dadurch 
dürfte das Verständnis späterer Präzisierungen erleichtert werden. 

J. Arbuthnot veröffentlichte im Jahre 1710 in den “Philosophical 
Transactions of the Royal Society” ein Argument für die göttliche Vor- 
sehung, welches auf der Beobachtung eines konstanten Verhältnisses der 
Geburten von Menschen der beiden Geschlechter beruht. Was Arbuthnot 
tat, können wir in unserer Terminologie so ausdrücken: Es sollte die sta- 
tistische Hypothese überprüft werden , nach welcher eine gleiche Wahrscheinlichkeit 
dafür besteht , daß ein neugeborenes Kind männlichen oder weiblichen Geschlechtes ist . 
Zur Abkürzung nennen wir ein Jahr mit überwiegend Knabengeburten ein 
männliches Jahr M. Arbuthnots Überlegung verlief folgendermaßen: 
Falls die Gleichwahrscheinlichkeitshypothese richtig wäre, müßte die Ver- 
teilung der männlichen und weiblichen Jahre über insgesamt 82 Jahre der 
Verteilung der Resultate K und S über 82 Würfe mit einer symmetrisch ge- 
bauten Münze entsprechen. Er bewies diese Behauptung nicht, sondern 
setzte sie als selbstverständlich voraus. Die von ihm überprüfte Hypothese h 
lautete also: Die Wahrscheinlichkeitsverteilung für männliche und weibliche Jahre 
ist eine Binomialverteilung mit dem Paramater W(M) — 1/2. 
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Als Beobachtungsergebnis legte Arbuthnot das Geburtenregister der 
Stadt London für 82 aufeinanderfolgende Jahre zugrunde. Danach gab es in 
allen 82 Jahren mehr männliche als weibliche Geburten. Arbuthnot stellte 
die folgende Überlegung an: Wäre die Hypothese h richtig, so wäre die 
Chance, 82 aufeinanderfolgende männliche Jahre zu erhalten, gleich 

20 Nullen 

/ 1 \ 82 * 

/-LJ ^ 1/48360 . . . 0 . 

Dies ist ein ungeheuer niedriger Wert. Wenn wir per analogiam anneh- 
men, daß sich dasselbe empirische Ergebnis auch für andere Weltgegenden 
und andere Zeiten ermitteln läßt, so erhalten wir eine Wahrscheinlichkeit, 
die praktisch unendlich klein ist. Er verwarf daher die Hypothese h. 

Es dürfte sich um das erste historisch nachweisbare Beispiel dafür han- 
deln, daß ein Denker aufgrund einer Likelihood-Betrachtung %ur Verwerfung 
einer Hypothese gelangte . Eine rationale Rekonstruktion seiner Argumenta- 
tion würde ja in folgendem Appell an eine Likelihood-Verwerfungsregel 
bestehen: „Wäre h wahr, so wäre die Wahrscheinlichkeit dessen, was sich 
tatsächlich ereignet hat, unvorstellbar klein. Ein Ereignis von dieser Art 
würde praktisch niemals stattfinden. Es hat jedoch stattgefunden. Also ist 
h zu verwerfen“. 

Arbuthnot begnügte sich nicht mit der Verwerfung von ä, sondern zog 
den weiteren Schluß, daß nicht der Zufall, sondern die göttliche Vorsehung 
die Verteilung der Geschlechter regle. 

Wie nicht anders zu erwarten, wurde Arbuthnots ^Argument* begierig auf- 
gegriffen und durch mehrere Jahrzehnte hindurch von den Kanzeln Oxfords bis 
herab zu denen Münchens verkündet 63 . 

Dieses weitergehende Argument ist natürlich lächerlich. Aber es ist 
immerhin interessant festzustellen, daß es nicht ohne theoretisches Fundament 
ist. Zu der damaligen Zeit herrschte noch ganz die klassische Vorstellung 
vor, wonach jede Wahrscheinlichkeit auf gleichmöglichen (d. h. gleichwahr- 
scheinlichen) Alternativen beruht. (Vgl. die klassische Wahrscheinlich- 
keitsdefinition : Wahrscheinlichkeit ist gleich dem Bruch, bestehend aus der 
Zahl der günstigen Fälle im Zähler und der der möglichen Fälle im Nenner.) 
N. Bernoulli attackierte Arbuthnot, aber nicht in bezug auf die uns al- 
lein interessierende Verwerfung der Hypothese h, sondern wegen des vor- 
eiligen Schlusses auf die göttliche Vorsehung: Er zeigte, daß man die ver- 
worfene Hypothese h nicht durch die Vorhersehungshypothese zu ersetzen 
brauche, sondern daß es genüge, einen anderen Parameter der Binomialver- 
teilung zu wählen, etwa den Parameter 18/35 für männlich, wodurch sich 
ein guter Einklang zwischen Theorie und Erfahrung erzielen lasse. Der be- 

63 Vgl. J. P. Süssmilch, Die Göttliche Ordnung , Berlin 1741, und W. Derham, 
Physico-Theology: or a demonstration of the being and attributes of God from the works of 
Creation , London 1713. 
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deutende Wahrscheinlichkeitstheoretiker de Moivre bestritt die Korrekt- 
heit der Argumentation Bernoullis. Wieso man dies ernsthaft bestreiten 
kann, werden wir sofort sehen. 

Charakteristisch für Arbuthnots Vorgehen ist nämlich die Untersuchung 
einer isolierten Hypothese h. Seine Überlegung besagt, daß h zu verwerfen ist, 
wenn diese Hypothese im Licht der verfügbaren Daten eine sehr geringe 
Likelihood besitzt (im vorliegenden Fall die Likelihood (1/2) 82 ). 

In der Argumentation Arbuthnots sind somit zwei Schritte zu unter- 
scheiden: erstens der eben beschriebene Schritt (das Likelihood- Argument) ; 
zweitens der Übergang zur Hypothese der göttlichen Vorsehung. Nur der 
erste Schritt soll hier diskutiert werden. Der Fehler im zweiten Schritt ist 
im Prinzip von Bernoulli aufgedeckt worden: Gleichwahrscheinlichkeits- 
annahmen sind nicht die einzig möglichen statistischen Annahmen. 
Bernoullis Argument war bloß unvollständig. Auf diesen Punkt kommen 
wir noch kurz zurück. 

Nicht erst der Schluß auf die göttliche Vorsehung ist anfechtbar, son- 
dern bereits das Likelihood-Argument. Würde man die Art von Überle- 
gung für korrekt halten, die Arbuthnot aufgestellt hat, so hätte dies eine 
katastrophale Konsequenz: Es müßte nicht nur die %ur Diskussion stehende 
Hypothese h verworfen werden , sondern ebenso jede andere Hypothese , gleichgültig 
was sich tatsächlich ereignet . 

Um dies einzusehen, nehmen wir an, die Befragung des Londoner Ge- 
burtenregisters hätte ein Resultat ergeben, das vom intuitiven Standpunkt 
mit h im Einklang steht, etwa 41 männliche und 41 weibliche Jahre in 
irgendeiner bestimmten Reihenfolge. Wie groß ist die Likelihood von h bei 
41 weiblichen und 41 männlichen Jahren in einer bestimmten Anordnung ? Die 
Antwort ist höchst einfach. Sie ist genau dieselbe wie oben, nämlich (1/2) 82 ! 
Wenn man sich entschließt , alles %u verwerfen , was eine niedrige Likelihood hat , so 
muß man h verwerfen , was auch immer sich ereignen mag. Dies war der nicht anzu- 
fechtende Gegeneinwand von de Moivre gegen Bernoulli: Es ist gar 
nicht richtig, daß man bei Wahl eines anderen Parameters einen besseren 
Einklang mit der Erfahrung erzielt, wenn man den ersten Schritt in der 
Argumentationsweise von Arbuthnot überhaupt akzeptiert. 

Der gesunde Menschenverstand wird sich dagegen auflehnen. Er wird 
sagen: „Es stimmt zwar, daß bei Annahme der Richtigkeit von h die Wahr- 
scheinlichkeit von 41 männlichen und 41 weiblichen Jahren in einer ganz 
bestimmten Ordnung nicht größer ist als die Wahrscheinlichkeit von 82 
männlichen Jahren. Aber auf die Ordnung kommt es eben nicht an. Bei Annahme 
der Richtigkeit von h ist die Wahrscheinlichkeit von 41 männlichen und 41 
weiblichen Jahren in irgendeiner beliebigen Ordnung viel größer als die Wahr- 
scheinlichkeit von 82 männlichen Jahren“. 

Damit sind wir bei einer weiteren Frage angelangt: Was rechtfertigt es, 
nur die Proportion in Betracht %u ziehen, von der Ordnung jedoch %u abstrahieren ? 
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Für den Augenblick verschieben wir die Antwort auf diese Frage, da sie die 
Aufmerksamkeit von dem entscheidenden Punkt unnötig ablenken würde. 
Es muß zuvor prinzipiell Klarheit über etwas anderes geschaffen werden. 
(Allerdings sei bereits hier angedeutet, daß die Beantwortung der eben for- 
mulierten Frage nicht trivial ist und daß überraschenderweise eine korrekte 
Antwort erst im Jahre 1922 von R. A. Fisher gegeben worden ist.) 

Wir übersetzen zunächst Arbuthnots Gedankengang in die Sprache der 
modernen Testtheorie. Unter einem möglichen Resultat soll eine Folge von 
82 Jahren, bestehend aus teils männlichen und teils weiblichen Jahren, ver- 
standen werden (mit den beiden Grenzfällen von Folgen nur männlicher 
und nur weiblicher Jahre), h habe dieselbe Bedeutung wie eben. Die Ver- 
werfungsklasse R von h ist die Klasse jener möglichen Resultate, bei deren tat- 
sächlichem Auftreten h verworfen wird. Arbuthnots Grundintuition läßt 
sich nun so wiedergeben : R ist so wählen , daß im Fall der Wahrheit von h 

die Wahrscheinlichkeit eines möglichen Resultates {Elementes') von R sehr gering ist. 
Die inhaltliche Rechtfertigung dafür lautet: Bei einer derartigen Wahl von 
R besteht eine äußerst geringe Irrtumswahrscheinlichkeit vom Typ I, d. h. 
eine geringe Chance , eine richtige Hypothese %u verwerfen .) 

Der Gedanke läßt sich auch inderLikelihood-Terminologie ausdrücken: 
X sei die Folge der Jahre. T sei eine Beobachtung von 82 aufeinander- 
folgenden Jahren in bezug auf die Merkmale „männliches Jahr“ und „weib- 
liches Jahr“. E sei das Ereignis, in der Klasse R zu liegen. {R ist für den 
Augenblick eine variable Größe; ihre endgültige Bestimmung erfolgt mit- 
tels der unten geschilderten Minimal-Likelihood- Forderung von Arbuth- 
not.) D sei die in h beschriebene Verteilung, also die Binomialverteilung mit 
dem Parameter W{M) = 1/2. Vj sei die Beobachtung der letzten 82 Jahre 
(in London oder in der Welt) in bezug auf die beiden Merkmale. Wir bilden 
jetzt die einfache kombinierte statistische Proposition (fX 9 T , D); 
(X, E}y , die wir zwecks größerer Suggestivität durch (h; A) abkür- 

zen. Arbuthnots Gedanke kann nur in der Gestalt der folgenden Forderung 
der minimalen Likelihood ausgedrückt werden: „Wähle R so, daß die 
Likelihood von <7;; A) sehr klein ist“. (Um R quantitativ zu präzisieren, 
muß natürlich „sehr klein“ irgendwie in die quantitative Sprache übersetzt 
werden. Für das Beispiel bildet diese Wahl keine Schwierigkeit. Denn z. B. 
(1/10) 10 wird man sicherlich als sehr klein bezeichnen; und diese Zahl oder 
eine noch viel kleinere würde durchaus genügen, um die von Arbuthnot 
vorgenommene Verwerfung zu erzielen.) 

Auch diese Präzisierung führt jedoch leider überhaupt nicht weiter. 
Die Wahl von R kann noch auf verschiedenste Weise erfolgen. Hegt man 
ein Vorurteil gegen eine Hypothese h l9 so kann man nach Beobachtung 
eines Resultates E 1 die Verwerfungsklasse R x stets so wählen, daß erstens 
E x in R x liegt und daß zweitens die Likelihood von (h x \ Rf) sehr klein ist. 
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Diese Tatsache zeigt erneut die Berechtigung der Frage: Ist es überhaupt 
sinnvoll , isolierte statistische Hypothesen testen ? 

Laplace dürfte der erste gewesen sein, der gezeigt hat, wie man an die- 
ses Problem heranzugehen hat. Seine Methode enthält implizit eine negative 
Antwort auf die eben formulierte Frage. Er bringt das folgende anschauli- 
che Beispiel: Auf einer Tafel stehe das Wort „Konstantinopel 44 geschrieben. 
Es soll die Hypothese geprüft werden, daß dieses Wort durch Zufall dorthin 
gelangt sei (etwa in der Weise, daß ein Kind, welches zwar die Buchstaben 
des Alphabetes beherrscht, aber dieses Wort nicht kennt, die Buchstaben- 
reihe gedankenlos, Buchstabe für Buchstabe, hingeschrieben hat.) Diese 
Zufallshypothese ist zu verwerfen; aber nicht deshalb , weil das angegebene Wort 
unter der Annahme ihrer Richtigkeit sehr selten zustande käme (die Chance seines 
Auftretens außerordentlich gering wäre), sondern weil wir eine viel bessere andere 
Hypothese %ur Verfügung haben , d. h. eine Hypothese , bei deren Richtigkeit das 
fragliche Wort viel häufiger angeschrieben wird. Die andere Hypothese lautet: 
,, Jemand hat das Wort jKonstantinopeP bewußt hingeschrieben 44 . Das 
Wort „Konstantinopel 44 kommt in unserer Sprache vor. Die Wahrschein- 
lichkeit, daß einer, der die Sprache beherrscht, das Wort absichtlich hinge- 
schrieben hat, ist daher viel größer als die Wahrscheinlichkeit, daß es durch 
Zufall auf die Tafel gelangt sei. (Übungsaufgabe : Der Gedankengang soll 
formal präzisiert werden. Hinweis: Die sog. Zufallshypothese muß noch 
schärfer umrissen werden, etwa in der Weise, daß man eine Binomialver- 
teilung mit dem Parameter # — 1/26 annimmt, wobei hier im Nenner die 
Anzahl der Buchstaben des Alphabetes steht.) 

Die Moral von der Geschichte läßt sich im folgenden Imperativ fest- 
halten: „Verwirf eine Hypothese h nicht bereits dann, wenn das, was sich 
tatsächlich ereignet hat, unter der Annahme der Richtigkeit von h sehr selten 
ereignet; verwirf h nur dann, wenn du eine bessere Hypothese hast! 44 Was 
diese moralische Ermahnung, in der von einer besseren Hypothese gespro- 
chen wird, eigentlich beinhaltet, kann mittels des Begriffs der Stützung so 
präzisiert werden: „Ein Test soll nur dann zur Verwerfung einer Hypothese 
führen, wenn eine andere Hypothese verfügbar ist, die viel besser gestützt ist 
als die erste 44 . Über den Stützungsbegriff ist hier zunächst noch nichts 
Näheres ausgemacht. Wenn man aber die früher zitierte Theorie akzeptiert, 
so ist es klar, daß damit auch das Grundprinzip der Testtheorie auf den Begriff 
der relativen Likelihood zurückgeführt wird. Denn der eben ausgesprochene 
intuitive Grundsatz stellt ja eine Verknüpfung her zwischen dem Grundbe- 
griff der Testtheorie, nämlich dem Begriff der Verwerfung , und dem Grund- 
begriff der Stützungstheorie, nämlich dem Begriff besser gestützt als. Und 
dieser letztere Begriff ist auf den Begriff der Likelihood zurückgeführt wor- 
den. 

In der Sprache der Verwerfungsklassen formuliert: Die Wahl der Ver- 
werfungsklasse R für h 1 darf nicht nur von der Likelihood von R ) für 
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eine isolierte Hypothese h x abhängig gemacht werden. Vielmehr ist sie ab- 
hängig zu machen vom Likelihood-Vergleich zwischen zwei kombinierten 
Propositionen, etwa zwischen (b x \ R) und (h 2 ; R} für eine geeignete zweite 
Hypothese h 2 . 

Man übersehe nicht, daß bei der Einbeziehung einer zweiten statistischen 
Hypothese der Begriff der Verwerfungsklasse weiterhin auf die erste Hypothese 
bezogen bleibt. 

Wenden wir dies auf unser Beispiel an. Wir setzen für h x die Hypothese 
von Arbuthnot ein („die Wahrscheinlichkeit eines männlichen Jahres ist 
gleich 1/2“) und für h 2 die Gegenhypothese von Bemoulli („die Wahr- 
scheinlichkeit eines männlichen Jahres ist gleich 18/35“). Eine im Sinn von 
Laplace vernünftige Verwerfungsklasse für h x wäre dann dadurch charak- 
terisiert, daß sie Ergebnisse enthält, die im Fall der Wahrheit von h x selten 
Vorkommen, sich dagegen im Fall der Wahrheit von h 2 nicht selten ereignen. 

Wenn wir wieder zu einem etwas laxeren Sprachgebrauch zurückkehren, 
können wir zwei Arten von Likelihood-Tests einander gegenüberstellen, 
nämlich : 

(1) den reinen Likelihood-Test, welcher auf der Intuition beruht: „Ver- 
wirf eine Hypothese dann, wenn sich das, was sich ereignet, unter der An- 
nahme der Wahrheit der Hypothese sehr selten ereignet“ 

und: 

(2) den relativen Likelihood-Test, bei dem die zugrundeliegende Intui- 
tion die folgende ist: „Verwirf eine Hypothese K welche zusammen mit 
einer Hypothese h 2 zur Diskussion gestellt worden ist, wenn das, was sich 
ereignet, unter der Annahme der Wahrheit von h x sehr unwahrscheinlich ist, 
nicht jedoch unter der Annahme der Wahrheit von hf c . 

Unsere These lautet : Die für (1) angegebenen intuitiven Begründungen 
sind falsch, die für (2) gegebenen hingegen im Prinzip richtig. Daher ist 
auch Arbuthnots Argument unrichtig, da es auf einer stillschweigenden 
Annahme eines reinen Likelihood-Tests beruht. Die Verwerfung seiner 
Hypothese h x war allerdings trotzdem richtig, aber nicht deshalb, weil die 
Hypothese der göttlichen Vorsehung der Hypothese h x vorzuziehen ist, 
sondern weil man als Gegenhypothese h 2 die von Bernoulli erwähnte 
wählen kann und diese zu einer Verwerfung von h x auf der Grundlage eines 
korrekten relativen Likelihood-Tests führt. 

Für die Begründung dieser Behauptung muß allerdings noch die früher 
zurückgestellte Frage erörtert werden, warum man denn bei Beobachtungs- 
resultaten von der Art, wie sie Arbuthnot verwenden mußte, die Ordnung 
vernachlässigen kann. (Nur dann funktioniert ja, wie wir uns erinnern, im 
vorliegenden Fall ein Test von der Art (2).) Die Antwort sieht folgender- 
maßen aus : h x und h 2 seien wieder die beiden erwähnten Hypothesen. e 0 sei 
ein Erfahrungsdatum, welches für 82 aufeinanderfolgende Jahre das Ver- 
hältnis von männlichen und weiblichen Jahren ausdrückt und darüber 
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hinaus auch die genaue Reihenfolge dieser beiden Typen von Jahren be- 
schreibt. e k sei dasjenige Datum, welches aus e 0 dadurch zustandekommt, 
daß die Erwähnung der Reihenfolge weggelassen wird. Wir nennen e k das 
relativ zu e Q kontrahierte Datum. Es läßt sich nun, wie R. A. Fisher ge- 
zeigt hat, beweisen, daß die folgende Gleichheit zwischen Brüchen über 
Chancen besteht : 

die Chance, daß e 0 im Fall der Wahrheit von h x eintritt 
die Chance, daß e 0 im Fall der Wahrheit von h 2 eintritt 

(*) 

die Chance, daß e k im Fall der Wahrheit von h x eintritt 

die Chance, daß e k im Fall der Wahrheit von h 2 eintritt 

Terminologische Anmerkung. Fisher nennt e k eine hinreichende Statistik für e 0 . 

Jetzt kann man leicht erkennen, wie unter Benützung eines Tests von 
der Art (2) die Argumentation Arbuthnots in Ordnung gebracht werden 
kann. Bezüglich des empirischen Datums berücksichtigen wir den tat- 
sächlichen und den davon verschiedenen möglichen anderen Fall: 

7. Fa//: e 0 besagt, daß alle 82 Jahre männlich sind. Hier spielt die Ord- 
nung keine Rolle, also ist e 0 identisch mit e k . Die obige Gleichung ist eine 
Tautologie von der Gestalt „ r = r “. Die Berechnung des Bruches ergibt 
einen sehr kleinen Wert, da die Wahrscheinlichkeit des Ereignisses e 0 (oder 
was ja dasselbe ist: e k ) bei Voraussetzung der Wahrheit von h 1 viel geringer 
ist als die Wahrscheinlichkeit eben dieses Ergebnisses bei Voraussetzung 
der Wahrheit von h 2 . Unter Berufung auf den relativen Likelihood-Test 
(Intuition (2)) ist also h x zu verwerfen. 

2. Fall: e Q besagt, daß 41 männliche und 41 weibliche Jahre in einer gan^ 
bestimmten Ordnung vorliegen. Hier ist e 0 nicht mit e k identisch (in der Car- 
napschen Terminologie hätte man zu sagen, daß e 0 eine Zustandsbeschrei- 
bung enthält, e k hingegen nur eine zugehörige Strukturbeschreibung). Ob- 
wohl das tatsächliche Beobachtungsresultat e 0 ist, genügt es für die Bestim- 
mung der relativen Likelihoods wegen (*), die rechte Seite dieser Gleichung 
zu berechnen. Die Berechnung ergibt diesmal einen sehr hohen Wert, d. h. 
der reziproke Wert ist sehr klein. Also wäre diesmal die BERNOULLi-Hypothese 
zugunsten der ARBUTHNOT-Hypothese zu verwerfen. 

Alles bisher Gesagte gehört zu den intuitiven Vorbetrachtungen. Viele 
der dabei benützten Begriffe waren daher mit einer inhaltlichen Vagheit be- 
haftet. Das, worauf es ankäme, wäre der Aufbau einer Testtheorie, die auf 
der Intuition (2) beruht. Dieser weitere Aufbau hätte auch die Aufgabe, die 
Intuition dadurch zu erhärten, daß gezeigt wird: Diese Testtheorie hat zahl- 
reiche Konsequenzen, die vermutlich richtig sind, jedoch keine, die vermut- 
lich falsch sind. Dies bleibt jedenfalls unser Wunsch. Er wird sich leider 
nicht ganz erfüllen (vgl. 10. b). 

Zuvor soll jedoch eine andere Testtheorie diskutiert werden, die über- 
haupt nicht mit dem Begriff der Likelihood arbeitet. Diese Theorie ver- 
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dient es, genauer analysiert zu werden, da sie vermutlich die unter Statisti- 
kern am stärksten verbreitete Theorie ist. 

9.b Macht und Umfang eines Tests. Die Testtheorie von Neyman- 
Pearson. In einer wesentlichen Hinsicht besteht zwischen der hier zu er- 
örternden und der später zu schildernden Likelihood-Testtheorie eine Ähn- 
lichkeit. Es werden in beiden Fällen keine isolierten Hypothesen in Betracht 
gezogen. Neyman dürfte der erste gewesen sein, der den intuitiven Ge- 
danken von Laplace explizit formulierte, nämlich, daß es keinen statistischen 
Test von Hypothesen gibt , der nicht auf miteinander rivalisierende Hypothesen Be - 
^ugnimmt. In diesem Sinn können alle modernen Testtheorien, ebenso wie die 
früher skizzierte Stützungstheorie, als moderne statistische Varianten der 
Theorie der eliminativen Induktion angesehen werden. Demgegenüber bilden 
sowohl die Theorie Reichenbachs als auch die ursprüngliche Theorie 
Carnaps Varianten der enumerativen Theorie der Induktion. Über die 
Nebulosität des Ausdruckes „Induktion“ muß man sich bei diesem Ver- 
gleich natürlich hinwegsetzen. 

Die folgenden Überlegungen zielen nicht so sehr auf die Kritik einer be- 
stimmten Testtheorie ab; sie sollen vielmehr in der Hauptsache dazu dienen 
zu verhindern, daß die an sich sehr interessanten und wichtigen Begriffe des 
Umfangs und der Macht eines Tests wissenschaftstheoretisch überschätzt 
werden. 

Einige Autoren halten Begriffe wie den der Annahme und der Verwerfung 
einer Hypothese für zu grob. Tatsächlich jedoch können wir in zahllosen 
praktischen Situationen nicht umhin, solche Entscheidungen zu treffen. 
Wenn der leitende Ingenieur einer Firma für Leuchtröhren eine Entschei- 
dung darüber treffen muß, ob eine bestimmte Neuproduktion eingeleitet 
werden soll, so wird diese Entscheidung davon abhängen, wie aufgrund von 
Stichproben der Test der Hypothese ausfällt, daß die durchschnittliche 
Lebensdauer dieser neuen Röhren mindestens 600 Std. beträgt. Wenn sich 
die Geschäftsführung einer chemischen Fabrik entscheiden soll, ob man ein 
neues Medikament auf den Markt bringen werde, so wird dieser Entschei- 
dung z. B. ein Test der Hypothese vorangehen, daß 85% der Leute, welche 
an einer bestimmten Krankheit leiden, nach Einnahme dieses Medikamen- 
tes genesen. Und wenn in einem Land mit zentraler Wirtschaftsplanung der 
Entschluß gefaßt wird, nunmehr eine bestimmte Weizensorte zu produzie- 
ren, so kann diesem Beschluß ein Test der Hypothese vorangehen, daß diese 
Weizensorte einen höheren Ertrag liefert als eine andere. 

In allen drei Fällen handelt es sich um die Überprüfung einer Hypothese, 
welche eine Aussage über einen Parameter macht : Im ersten Fall besagt die 
Hypothese, daß # ^ 600, wobei # der Parameter einer Exponentialverteilung 
ist. Im zweiten Fall ist der Parameter # = 0,85, wobei eine Binomialvertei- 
lung vorliegt. Im dritten Fall lautet die Hypothese, daß p' — p" =0, wobei 
p und p" die Mittel zweier Normalverteilungen mit gegebener Varianz sind. 
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In den Sätzen, die mit „wobei“ beginnen, wird jeweils explizit jener Teil der 
statistischen Daten erwähnt, der eine Annahme über eine bestimmte Struk- 
tur der Verteilungshypothese enthält. In allen drei Fällen werden also sta- 
tistische Hypothesen höherer Ordnung vorausgesetzt. Dies ist, wie wir be- 
reits wissen, der übliche Fall: der Test beschränkt sich auf die Überprüfung 
einer Annahme über den Wert eines Parameters. Bisweilen aber werden diese 
Oberhypothesen selbst einem Test unterzogen. Das Problem nimmt dann 
eine völlig andere Form an : Es steht nicht mehr der Wert eines Parameters 
zur Diskussion, sondern die Struktur der Verteilung. Hier wird das mathema- 
tische Modell selbst in Frage gestellt : Im ersten Fall fragt der Ingenieur, ob 
es überhaupt richtig ist anzunehmen, daß eine Exponentialverteilung vor- 
liegt; im zweiten Fall fragt der Chemiker, ob der Genesungs Vorgang durch 
das Modell der Binomialverteilung adäquat beschrieben wird; im dritten 
Fall muß sich der Agrarpolitiker überlegen, ob es berechtigt ist, von einer 
Normalverteilung auszugehen. 

Zunächst führen wir einige in der Testtheorie übliche Begriffe ein. Ge- 
testet wird eine Hypothese h Q gegen eine zweite Hypothese h A . h Q wird 
Nullhypothese genannt. h A heißt die (mit h 0 rivalisierende) Alternativhypothese. 
Das Prüfungs verfahren wird von den Statistikern so interpretiert, daß die 
Verwerfung von h Q äquivalent ist mit der Annahme von h A und die Annahme 
von h 0 äquivalent mit der Verwerfung von h A . Wie schon einmal erwähnt, 
ist diese Voraussetzung nicht unproblematisch; doch soll sie vorläufig 
nicht in Frage gestellt werden. 

Zur Illustration sei für die obigen drei Beispiele jeweils eine geeignete 
Altemativhypothese h A angegeben : Im ersten Beispiel behauptet die Alter- 
nativhypothese, daß # < 600; im zweiten Beispiel besage sie etwa, daß # — 
0,60, und im dritten Beispiel, daß p' — p n 4= 0. 

Wenn sowohl die Form der Verteilungsfunktion als auch die Werte 
sämtlicher Parameter genau spezifiziert sind, spricht man von einer ein- 
fachen Hypothese, ansonsten von einer zusammengesetzten Hypothese. Im 
ersten Beispiel wird die zusammengesetzte Hypothese # ^ 600 gegen die 
zusammengesetzte Hypothese & < 600 getestet. Im zweiten Beispiel dagegen 
sind sowohl die Nullhypothese als auch die Alternativhypothese einfach, 
wenn wir für die Alternativhypothese den Parameter mit dem genauen 
Wert # = 0,60 ansetzen. Im dritten Beispiel wird die einfache Hypothese 
p' — p" = 0 gegen die zusammengesetzte Hypothese p' — p" =j= 0 ge- 
testet. 

Die Wahl eines Testkriteriums für die Nullhypothese h Q kann formal präzi- 
siert werden als eine erschöpfende Unterteilung des Stichprobenraumes, 
d.h. des Raumes der möglichen Resultate, in zwei disjunkte Klassen, näm- 
lich in : 

(a) die Verwerfungsklasse R, auch kritische Region für h Q genannt, und : 

(b) die Annahmeklasse R für h 0 . 
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Die Wendung „Wahl eines statistischen Tests für h 0 “ sei synonym mit 
„Wahl einer kritischen Region für h 0 

Da eine statistische Hypothese aufgrund gegebener Beobachtungsdaten 
weder definitiv verifizierbar noch definitiv falsifizierbar ist, erscheint es als 
zweckmäßig, in einer Tabelle übersichtlich die vier Möglichkeiten zusammen- 
zustellen, die vorliegen können, wenn man eine kritische Region R für h 0 
gewählt hat. Dabei wird vorausgesetzt, daß nur die beiden Alternativen 
h 0 und h A gegeben sind. 





h 0 ist wahr 
(h A ist falsch) 


h 0 ist falsch 
(b A ist wahr) 


Annahme von h 0 


korrekte 


Typ-II-Fehler 


(V erwerfung von h A ) 


Entscheidung 


(Irrtumswahrscheinlich- 
keit ß) 


Verwerfung von h 0 


Typ-I-Fehler 


korrekte 


(Annahme von b Ä ) 


(Irrtumswahrschein- 
lichkeit a) 


Entscheidung 



Ein Typ-I-Fehler wird also begangen, wenn eine richtige Nullhypothese 
verworfen wird (obwohl sie eigentlich angenommen werden sollte). Ein 
Typ-Il-Fehler wird begangen, wenn eine falsche Nullhypothese akzeptiert 
wird (obwohl sie eigentlich verworfen werden sollte). Es geht um eine ver- 
nünftige Methode zur Umschiffung dieser beiden Klippen: Wahres zu ver- 
werfen oder Falsches zu akzeptieren. Und zwar soll diese Methode durch 
eine geeignete Wahl der kritischen Region R erfolgen. 

Unter dem Umfang eines Tests für h 0 gegen h A versteht man die Chance a, 
ein in die kritische Region R fallendes Resultat zu beobachten, obwohl die 
Nullhypothese wahr ist. Der Umfang eines Tests ist also dasselbe me die Chance , 
bei der Wahl des %u diesem Test gehörenden R einen Typ-I-Fehler %u begehen (also 
die richtige Nullhypothese zu verwerfen und die falsche Alternative zu 
akzeptieren). Viele Autoren sprechen statt vom Umfang a eines Tests von 
der Signifikan^stufe a dieses Tests. 

Unter der Macht eines Tests für h 0 gegen h A wird die Chance verstanden, 
bei der Wahl des %u diesem Test gehörenden R h Q im Fall der Wahrheit von h A %u 
verwerfen . Wenn ß die Wahrscheinlichkeit der Begehung eines Typ-II- Fehlers 
ist, so ist die Macht eines Tests also die Wahrscheinlichkeit 1 — ß, nämlich 
die Wahrscheinlichkeit , keinen Typ-Il-Fehler %u begehen , kurz gesagt: es ist die 
Wahrscheinlichkeit, Falsches zu verwerfen. Da die Wahl eines Tests in der 
Wahl von R besteht, wird häufig auch vom Umfang und von der Macht der 
kritischen Region gesprochen. 
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Die Theorie von Neyman-Pearson kann am besten in der Weise gedeu- 
tet werden, daß darin versucht wird, die folgenden beiden Gedanken mit- 
einander zu verknüpfen: 

Erster Gedanke : Es soll ein Test gewählt werden, der einen möglichst 
kleinen Umfang (eine möglichst kleine Signifikanzstufe) besitzt. Anders aus- 
gedrückt: R ist so zu wählen, daß die Wahrscheinlichkeit, einen Typ-I- 
Fehler zu begehen (d. h. die Wahrscheinlichkeit, eine wahre Hypothese zu 
verwerfen), möglichst gering ist. 

Zweiter Gedanke: Bei dem gewählten Test soll zugleich eine große 
Chance bestehen, eine falsche Hypothese zu verwerfen, d. h. der Test soll 
eine möglichst große Macht besitzen. Anders ausgedrückt: Es soll auch die 
Wahrscheinlichkeit dafür, einen Typ-II-Fehler zu begehen (d. h. die Wahr- 
scheinlichkeit, etwas Falsches zu akzeptieren), möglichst gering sein. 

In einem Schlagwort könnte man das intuitive Grundprinzip von 
Neyman-Pearson so wiedergeben: 

(a) Es soll eine kleine Wahrscheinlichkeit dafür , Wahres %tt verwerfen , mit 
einer großen Wahrscheinlichkeit dafür , Falsches verwerfen , verknüpft 

werden . 

In der Sprache der Irrtumswahrscheinlichkeit lautet das Prinzip : 

(a r ) Es soll eine geringe Wahrscheinlichkeit dafür , einen Typ-I-Fehler be- 
gehen , mit einer großen Wahrscheinlichkeit dafür , keinen Typ-II-Fehler 
begehen , verknüpft werden . 

Wir geben noch eine dritte Formulierung, die mit den beiden Begriffen 
Umfang und Macht operiert: 

(a") Es sol ein Test gewählt werden , der einen kleinen Umfang , aber eine große 
Macht besitzt. 

Dieser Gedanke dürfte auch in allen nichtstatistischen Fällen sinnvoll 
sein, in denen wir es mit weder verifizierbaren noch falsifizierbaren Hypothe- 
sen zu tun haben, vorausgesetzt allerdings, daß dort ein geeigneter Wahr- 
scheinlichkeitsbegriff definiert werden kann (denn der in der Formulierung 
statistischer Hypothesen benützte Wahrscheinlichkeitsbegriff steht ja dort 
nicht zur Verfügung). 

Es möge nun beachtet werden, daß man bei oberflächlicher Formulie- 
rung des Gedankens zu einer Absurdität gelangt, so daß es nicht möglich ist, 
ihn unmodifiziert zu übernehmen und zu präzisieren. Ein Vergleich mit 
dem sog. ökonomischen Prinzip, wie es in der theoretischen Nationalökono- 
mie gelegentlich formuliert wurde, möge dies verdeutlichen. Danach soll 
mit möglichst geringen Kosten ein möglichst hoher Ertrag erzielt werden. 
Diese Forderung ist unsinnig. Die eben formulierte Behauptung läßt sich 
zwar nicht logisch beweisen, aber doch sehr plausibel machen. Das ökonomi- 
sche Prinzip in der gegebenen Fassung hat eine verdächtige Ähnlichkeit mit 
der Aufforderung: „Wasch mir den Pelz, aber mach mich nicht naß!“ Ein 




156 



Die logischen Grundlagen des statistischen Schließens 



Wirtschaftssubjekt hätte dieses Prinzip erst dann wirklich befolgt, wenn es 
ihm gelungen wäre, ohne Einsatz von Mühe ein Schlaraffenland zu erzeugen. 
Man kann nicht zwei in entgegengesetzte Richtung gehende Superlative 
simultan verlangen. Es ist sinnvoll zu fordern, daß bei gegebenen Kosten der 
Ertrag möglichst hoch werden soll; ebenso zu verlangen, daß ein gegebener 
Ertrag mit möglichst niedrigen Kosten erzielt werden soll. Unerfüllbar hin- 
gegen ist die Forderung, ohne Kosten alles zu erreichen. 

Neyman und Pearson haben natürlich nicht den Fehler begangen, die 
Forderung zu erheben, daß simultan der Umfang zu minimalisieren und die 
Macht zu maximalisieren sei. In der Neyman-Pearson- T esttheorie wird viel- 
mehr an Stelle von (a) das folgende Prinzip aufgestellt : 

(b) Es soll ein kleiner , aber fester Umfang (eine kleine Typ-I-Irrtums Wahr- 
scheinlichkeit) gewählt werden , etwa der Betrag 0,01, und unter allen 
kritischen Regionen soll diejenige mit der größten Macht ausgewählt werden. 

Hier tritt die Frage auf, ob dies überhaupt möglich ist. Das Lemma von 
Neyman und Pearson, welches wir hier ohne Beweis anführen, gibt darauf 
eine bejahende Antwort. Danach existiert im Fall einer Alternative zwischen 
zwei einfachen Hypothesen für jeden gewählten Umfang ein mächtigster Test 
(eine mächtigste kritische Region). Zugleich werden darin hinreichende Be- 
dingungen dafür angegeben, daß diese Situation vorliegt. Sofern die Be- 
dingungen erfüllt sind, ist also bei vorgegebener Wahrscheinlichkeit, die 
Nullhypothese im Wahrheitsfall zu verwerfen (also einen Typ-I-Irrtum zu 
begehen) die Wahrscheinlichkeit, die Nullhypothese im Falschheitsfall zu 
verwerfen (also keinen Typ-II-Irrtum zu begehen), am größten. 

Anmerkung. Für einen einfachen Beweis des Lemmas vgl. etwa J. E. Freund, 
[Statistics], S. 240 ff. Der Beweis ist wissenschaftstheoretisch interessant; denn der 
dabei benützte zentrale Begriff ist der Begriff der Likelihood. Dies zeigt, daß die 
Neyman- PEARSON-Testtheorie nicht so stark von der im nächsten Unterabschnitt 
geschilderten Likelihood-Testtheorie ab weicht, wie es zunächst den Anschein hat. 
Denn auch die erstere kann als eine verklausulierte Likelihood-Testtheorie ange- 
sehen werden. Trotzdem wird es sich heraussteilen, daß diese beiden Testtheorien 
divergieren. 

Die skizzierte Theorie kann nach zwei Richtungen verallgemeinert 
werden. 

(I) Die erste Verallgemeinerung besteht darin, daß der reine Test durch 
einen gemischten Test ersetzt wird. Man nennt einen Test rein, wenn man nur 
mit der Zweiteilung Annahme und Verwerfung operiert und dabei zugleich 
Nichtverwerfung mit Annahme identifiziert. In einem gemischten Test werden 
demgegenüber die möglichen Resultate in drei Kategorien eingeteilt: (1) 
diejenigen Resultate, die zu einer Verwerfung der Nullhypothese führen; 
(2) diejenigen Resultate, die zur Annahme der Nullhypothese führen; (3) die- 
jenigen Resultate, in denen vorgeschrieben wird, die Nullhypothese weder 
anzunehmen noch zu verwerfen, sondern eine diesbezügliche Entscheidung 
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vom Ausgang eines neuen Experimentes abhängig zu machen. Gemischte 
Tests werden bisweilen auch als mehrstufige Tests oder als sequentielle Tests 
bezeichnet. 

Um keine Verallgemeinerung, sondern um eine Modifikation — und zwar 
um eine Modifikation im Sinne einer Abschwächung — reiner Tests handelt 
es sich bei den Signifikan^tests : Hier wird als Alternative zur Verwerfung 
der Nullhypothese h 0 nicht die Annahme der mit h 0 rivalisierenden Hypo- 
these h A , sondern Urteilsenthaltung empfohlen. 

Ein Beispiel erläutere den Unterschied zwischen den drei Tests. h 0 sei 
die Hypothese, daß eine gegebene Münze symmetrisch gebaut ist, daß also 
für diese Münze gilt: W(K) = W(S) = 1/2. h A besagt, daß die Münze nicht 
symmetrisch gebaut ist. Der Beobachtungsbefund bestehe aus den Resul- 
taten von 100 Würfen mit der Münze. 7. Fall (reiner Test): Wenn minde- 
stens 60mal oder höchstens 40mal K aufscheint, ist h Q zu verwerfen und h A zu 
akzeptieren. Ergibt sich dagegen höchstens 59mal und mindestens 41 mal 
K, so wird h 0 akzeptiert. 2. Fall (gemischter Test) : Die kritische Region von 
h 0 wird genauso gewählt wie im vorigen Fall. Die Annahme von h 0 wird 
auf jene Fälle beschränkt, in denen mindestens 48mal und höchstens 52mal 
K erzielt wird. Für die restlichen Resultate wird Aufschub des Urteils ver- 
langt, bis das Ergebnis von 100 weiteren Würfen vorliegt (für welche dann 
abermals einer der drei Tests zu wählen ist). Daß es sich hierbei um einen 
differenzierten Test handelt, ergibt sich daraus, daß bei 53 bis 59 Resultaten 
K oder S zum Unterschied vom reinen Test die Gefahr des Typ-II-Fehlers 
für den Augenblick beseitigt wird und sein Wiederauftreten davon abhängt, 
was sich zukünftig ereignen wird. (Es ist aber zu bedenken, daß man, so- 
fern der Test nach dem nächsten oder dem n- ten Schritt zu Ende kommen 
soll, keine definitive Aussage über eine Verringerung dieser Irrtumsgefahr 
machen kann, sondern nur eine probabilistische Aussage darüber.) 

3. Fall (Signifikanztest) : h 0 wird verworfen, wenn mindestens 56mal oder 
höchstens 44mal K aufscheint. In den übrigen Fällen ist Urteilsenthaltung 
zu üben. 

An diesem Beispiel lassen sich die intuitiven Überlegungen verdeut- 
lichen, auf denen dieser dritte Testtyp beruht: „Wenn z. B. 54mal oder 
47mal Kopf geworfen wird, so erscheint es als vernünftig zu sagen, man 
könne nicht wissen, ob dieses Resultat entweder so zu interpretieren sei, 
daß zwar die Nullhypothese (Symmetriehypothese) richtig ist, sich jedoch 
eine gegenüber den (bei Gültigkeit dieser Hypothese) zu erwartenden 50 
X- Würfen %uf allsbedingte Abweichung ergeben hat; oder so, daß die Nullhypo- 
these falsch ist. Für eine Entscheidung zugunsten der Falschheitsannahme ist 
die Abweichung vom Wert 50 zu gering.“ 

Der Gefahr eines Typ-I-Fehlers ist man auch bei diesem Test ausge- 
setzt (wie immer, wo mit einer Verwerfungsregel operiert wird). Dage- 
gen entgeht man der Gefahr eines Typ-II-Fehlers dadurch, daß man die 
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Forderung nach Verwerfungs- und Annahmeregeln fallen läßt und sich mit 
Verwerfungsregeln allein begnügt. Diesen Vorteil erkauft man sich aller- 
dings mit einem Verzicht auf positive Entscheidungen. 

(Die Irrtumswahrscheinlichkeit a wird meist nur im Zusammenhang 
mit einem derartigen Test als Signifikan^stufe bezeichnet: Je größer diese 
Stufe, desto höher auch das einzige bei diesem Test entstehende Risiko, 
nämlich das Risiko, Wahres irrtümlich zu verwerfen.) 

Rein theoretisch kann man nicht entscheiden, welchem Test der Vorzug 
zu geben ist. Wertgesichtspunkte treten unvermeidlich ins Spiel. Nicht immer 
kann man sich den Luxus leisten , das Urteil %u suspendieren oder neue Resultate abyu- 
warten , z. B. weil die Zeit drängt oder die Geldmittel für die Durchführung 
weiterer Experimente fehlen. 

(II) Die zweite Verallgemeinerung besteht in der Zulassung allgemeinerer 
Formen statistischer Hypothesen. Alle bisher betrachteten derartigen Hypo- 
thesen waren einfache Hypothesen , d. h. sie hatten die Gestalt: „Die wahre 
Verteilung ist D“. Demgegenüber besagt eine komplexe statistische Hypo- 
these: „Die wahre Verteilung liegt in der Klasse jT“. Wird für eine derartige 
Hypothese eine kritische Region R gewählt, so versteht man unter dem 
Umfang des Tests (d.h. unter dem Umfang der Verwerfungsklasse R) das 
Maximum unter den Umfängen von R, wenn R für sämtliche zu der kom- 
plexen Hypothese gehörenden einfachen Hypothesen als kritische Region 
gewählt wird. (Der Leser verdeutliche sich genau den Sinn dieser Aussage.) 
Auch hier wird man zunächst mit einem reinen Test beginnen und die kom- 
plexe Nullhypothese H 0 gegen eine komplexe Alternativhypothese H A 
prüfen. Es kann sich dann ergeben, daß ein solcher Test von gegebenem 
Umfang zugleich ein gegenüber jedem anderen Test mächtigster Test ist für 
jede in H 0 enthaltene einfache Hypothese gegen jede in H A enthaltene ein- 
fache Hypothese. Ein solcher Test wird einheitlich mächtigster Test oder UMP- 
Test genannt (“uniformly most powerful test”). Ein derartiger Test ist sehr 
selten. Häufig wird es notwendig sein, von Fall zu Fall Tests zu entwickeln, 
die als optimal empfunden werden. Eine über solche jAd-Hockerien 4 
hinausgehende systematische Vereinheitlichung ist bisher nicht geglückt. 

Es ist zweckmäßig, sich diejenigen Begriffe der Testtheorie zu merken, in 
deren Definition keine Bezugnahme auf einen Wahrscheinlichkeitsparameter ent- 
halten ist, zum Unterschied von solchen, die eine derartige Bezugnahme enthalten. 
Bei strenger Formalisierung würden sich alle diese Begriffe als metasprachliche 
Begriffe erweisen. 

(A) Die wichtigsten ohne Wahrscheinlichkeitsparameter definierten Begriffe 
sind : Nullhypothese ; Alternativhypothese ; einfache Hypothese ; komplexe Hypo- 
these; kritische Region (Test, Verwerfungsklasse); Annahmeklasse; Typ-I-Fehler ; 
Typ-II-Fehler. 

(B) Mit Hilfe eines Wahrscheinlichkeitsparameters definierte Begriffe sind : 
Umfang (Signifikanzstufe) eines Tests = Typ-I-Irrtumswahrscheinlichkeit 
(Wahrscheinlichkeit, Wahres zu verwerfen); Macht eines Tests (Wahrscheinlich- 
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keit. Falsches zu verwerfen = Wahrscheinlichkeit, keinen Typ-II-Irrtum zu be- 
gehen). 

Wichtig ist auch die Beachtung des jeweiligen relationalen Charakters des 
Begriffs. Im Fall eines einfachen Tests ist insbesondere ein Fehler vom Typ I be- 
züglich der Nullhypothese dasselbe wie ein Fehler vom Typ II bezüglich der 
Alternativhypothese, und ein Fehler vom Typ II bezüglich der Nullhypothese 
dasselbe wie ein Fehler vom Typ I bezüglich der Alternativhypothese. Man kann 
also die Begriffe Nullhypothese und A.lternativhypothese miteinander vertauschen, 
wenn man gleichzeitig die Begriffe Typ-I-Fehler und Typ-II-Fehler miteinander ver- 
tauscht. 

9.c Die Mehrdeutigkeit der Begriffe „Annahme“ und „Verwerfung“. 

Abgesehen von gelegentlichen Andeutungen haben wir die beiden Be- 
griffe der Annahme und der Verwerfung keiner Analyse unterzogen. Miß- 
verständnisse können in einer Diskussion über statistische Testtheorien vor 
allem dadurch erzeugt werden, daß die einzelnen Diskussionsteilnehmer 
unter diesen Ausdrücken verschiedenes verstehen. Wenn wir vom positiven 
Ausdruck „annehmen“ ausgehen, so lassen sich mindestens drei Bedeutun- 
gen unterscheiden: 

(1) Nach der ersten Bedeutung heißt „eine Proposition annehmen“ so- 
viel wie : „an die Richtigkeit dieser Proposition glauben (von ihrer Richtig- 
keit überzeugt sein)“. Analog bedeutet „verwerfen“ dasselbe wie: „von 
der Falschheit überzeugt sein“. Für diesen Begriff ist es also wesentlich, daß 
darin sowohl von der Wahrheit bzw. Falschheit als auch von Überzeugungen 
die Rede ist. Andererseits ist dieser Begriff in dem Sinn absolut , daß das An- 
nehmen (und analog das Verwerfen) nicht auf einen Zweck relativiert wird. 
Wenn man an die Richtigkeit einer Proposition glaubt, so nimmt man sie 
schlechthin an; und wenn man sie für falsch hält, so verwirft man sie 
schlechthin. Nicht jedoch nimmt man sie für den und den Zweck an. 

Diese Bedeutung dürfte fast immer intendiert sein, wo man solche Aus- 
drücke im Alltag benützt: Wenn jemand annimmt , daß S, so glaubt er, daß 
S der Fall ist. 

Weder in der Wissenschaftstheorie noch in der Statistik steht jedoch 
dieser Begriff im Vordergrund. Denn hier hat man es mit Hypothesen zu tun, 
deren Wahrheitswert man nicht kennt. Und etwas, dessen Wahrheitswert 
man nicht mit Sicherheit ermitteln kann, in dem Sinne annehmen, daß man 
daran mit unerschütterlicher Überzeugung glaubt, heißt nichts geringeres, 
als einem unkritischen Irrationalismus zu huldigen. 

(2) Trotzdem ist man sowohl in theoretischen als auch in praktischen 
Entscheidungssituationen häufig genötigt, eine bloße Mutmaßung für 
einen bestimmten Zweck zu akzeptieren. Hinsichtlich praktischer Zwecke 
wurden oben einige Beispiele angeführt (S. 152). Von theoretischen Ent- 
scheidungssituationen sprechen wir dann, wenn ein Wissenschaftler eine 
Theorie für Systematisierungszwecke, also insbesondere für Erklärungen 
sowie für Prognosen , benützt. Ein Naturwissenschaftler ist sich z. B. dessen 
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bewußt, daß die Hypothesen, mit welchen er umgeht, unverifizierbar sind. 
Trotzdem benützt er die am besten bestätigte (am besten gestützte) Theorie, 
um bisher unerklärliche Phänomene versuchsweise zu erklären oder um mit ihrer 
Hilfe Voraussagen abzuleiten, von denen er hofft , daß sie eintreffen werden. 

Eine Wendung von der Art „X hat die Hypothese h angenommen“ 
ist bei diesem Gebrauch eine elliptische, d. h. unvollständige Aussage. Es 
muß hinzugefügt werden (a) ob die Annahme für einen praktischen oder für 
einen theoretischen Zweck erfolgt und (b) welches dieser spezielle prakti- 
sche oder theoretische Zweck ist. Die Zweckrelativierung ist erforderlich, 
weil das Annehmen nicht den Glauben an die Richtigkeit impliziert. 

(3) In der statistischen Testtheorie kommt leider, wie bereits in 9.a er- 
wähnt, noch eine weitere Bedeutung hinzu. Annehmen und Verwerfen in 
den bisherigen Bedeutungen bilden keine alle Fälle umfassende Alter- 
native : Man braucht weder an die Wahrheit noch an die Falschheit einer 
Hypothese h zu glauben. Ebenso kann man sich darüber unschlüssig sein, 
ob man eine Hypothese für praktische oder theoretische Zwecke annehmen 
solle. Solange in der Statistik mit einem reinen Test gearbeitet wird — d. h. 
also solange man sowohl sequentielle Tests als auch Signifikanztests außer 
Betracht läßt — , wird die Alternative „annehmen — verwerfen“ dagegen 
als vollständige Alternative konstruiert, und zwar geschieht dies mittels einer 
Nominaldefinition: Der grundlegende Begriff ist der Begriff der (proviso- 
rischen) Verwerfung; und „annehmen“ ist definiert als „nicht verwerfen“ 64 . 
Eine solche Definition ist nicht sehr zweckmäßig, da sie die beiden heterogenen 
Fälle des positiven Entschlusses zur Annahme für bestimmte Zwecke ebenso 
umfaßt wie die Unschlüssigkeit. Aber diese Definition hat sich nun einmal 
eingebürgert. 

Gäbe es nur die beiden Bedeutungen (1) und (2), so wären kaum Miß- 
verständnisse zu befürchten. Es ist die Nichtbeachtung des Unterschiedes 
^ wischen den Bedeutungen (2) und (3), welche die Gefahr her auf beschwört, daß 
Logiker und Statistiker aneinander vorbeireden , wenn sie in eine kritische Diskussion 
der statistischen Testtheorie eintreten . 

9.d Einige kritische Bemerkungen zu den Begriffen Umfang und 
Macht. Es soll jetzt gezeigt werden, daß sich ein Unterschied ergibt je nach- 
dem, ob man eine statistische Hypothese beurteilt, bevor man Versuche unter- 
nommen hat, oder nachdem derartigeV ersuche gemacht worden sind. Die Über- 
legungen von Neyman und Pearson dürften für das erste, also für die 
,Vor-Versuchs-Überlegungen‘, angemessen sein, nicht jedoch für das 
letztere, also die ,Nach-Versuchs-Überlegungen‘. Um die Analysen mög- 
lichst durchsichtig zu machen, werden nur einfache statistische Hypothesen 
und auch nur einfache Tests betrachtet. 

64 Dies gilt ganz besonders für die englischsprachige Literatur; van der 
Waerden trägt dem in [Statistik] Rechnung, indem er auf S. 353 “to accept” mit 
„nicht verwerfen“ übersetzt. 
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h 0 sei eine einfache Nullhypothese. In ihr werde auf die experimentelle 
Anordnung X und die Versuchsart T Bezug genommen. Eine Verwerfungs- 
klasse R sei gewählt worden. Der Umfang dieses Tests sei klein und betrage 
etwa 1/100. Die Chance, h Q im Wahrheitsfall zu verwerfen, ist also gleich der 
Chance 1/100, unter der Voraussetzung der Richtigkeit von h 0 bei einem 
Versuch der Art T an X ein Resultat zu erhalten, welches in die kritische 
Region R hineinfällt. Diese etwas pendantisch anmutende Erinnerung dar- 
an, daß Versuche einer bestimmten Art an einer experimentellen Anord- 
nung vorgenommen werden, erfolgte deshalb, weil in der statistischen Test- 
theorie die Relativierung meist vernachlässigt wird und dadurch der Ein- 
druck entsteht, daß im Rahmen dieser Theorie die statistischen Wahr- 
scheinlichkeiten ?5 in einem Vakuum betrachtet werden“, wie Hacking sich 
ausdrückt. 

Wir betrachten jetzt die folgende 
Metahypothese M ho : „h 0 wird nicht fälschlich verworfen werden“. 

Eine Metahypothese liegt hier vor, weil darin eine Aussage über h 0 gemacht 
wird. Solange keine Versuche (der Art T an X) unternommen worden sind, 
kann man M h(t als gut gestützt ansehen. Diese Wendung „gut gestützt“ 
nimmt nichtBezug auf den früher definierten StützungsbegrifF. Denn letzterer 
galt für statistische Hypothesen, nicht dagegen für Aussagen über solche. 
Die Wendung ist vielmehr in einem rein intuitiven Sinn zu verstehen. Ihre 
Rechtfertigung liegt in der folgenden long-run-Überlegung : „Falls h Q 
richtig ist, wird es sich bei Wahl dieses Tests auf lange Sicht ereignen, daß 
im Durchschnitt nur ungefähr jeder hundertste Versuch zur Verwerfung 
von h 0 führt“. Diese Überlegung soll hier nicht kritisiert, sondern als gültig 
vorausgesetzt werden. (Dies ist unsere Konzession an Neyman und Pearson ; 
denn ihrer Theorie liegt diese Art von intuitiver Rechtfertigung einer Meta- 
hypothese zugrunde.) Wir sprechen von einer guten A-priori- Stützung von M h(t . 

Die gute A-priori-Stützung von M ho darf einen aber nicht zu dem Fehl- 
schluß verleiten, daß die Metahypothese M ho auch dann gut gestützt ist , wenn ein 
bestimmter Versuch von der Art T an X vorgenommen worden ist und sein Residtat 
bekannt ist . 

Hacking bringt dazu ein illustratives Beispiel : Gegeben sei eine Anord- 
nung X und ein Versuchstyp T an X. Es gibt nur drei mögliche Resultate 
E»E t und E 3 . Der Gehalt der Verteilunghypothese h Q (Nullhypothese) 
werde ebenso wie der Gehalt von h^ (Alternativhypothese) in der folgenden 
Tabelle ausgedrückt: 





W(E1) 


W(E % ) 


W{E,) 


ho 


0,01 


0,95 


0,04 


b A 


0 


0,95 


0,05 
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Angenommen, wir wählen einen Test mit der Verwerfungsklasse 
R = {. E J, d. h. h 0 ist genau bei Vorkommen von E x zu verwerfen. Da die 
Chance für das Eintreten von E x 1/100 beträgt, ist auch die Wahrschein- 
lichkeit, bei Wahl dieses Tests einen Fehler vom Typ I zu begehen, also der 
Umfang des Tests, genau 1/100. Wir unterscheiden jetzt zwei Fälle. 1. Fall: 
Wir betrachten die Situation, bevor wir noch einen Versuch gemacht haben. 
Dann können wir ziemlich sicher sein, keine fehlerhafte Verwerfung von 
b 0 vorzunehmen 65 ; denn die Wahrscheinlichkeit, daß so etwas passieren 
könnte, beträgt ja nur 1/100. 2 . Fall: Es sei ein Versuch der Art T an X vor- 
genommen worden und das (ungewöhnliche) Resultat E x sei eingetreten. 
Dann passiert etwas völlig Absurdes: Unser Test verlangt von uns , eine Hypo- 
these %u verwerfen, von der wir fast mit Sicherheit wissen , daß sie richtig ist . Anders 
ausgedrückt : Wir können (relativ auf die akzeptierten statistischen Daten) 
fast sicher sein, daß unser Test uns in die Irre führt. Wieso ist dies der Fall? 
Nun: Auf Grund der statistischen Daten steht nur die Wahl zwischen h Q 
und h A zur Diskussion. Im Wahrheitsfall von h A kann aber wegen der Struk- 
tur dieser Verteilungshypothese E x mit praktischer Sicherheit gar nicht auf- 
treten. Hat sich trotzdem E x ereignet, so können wir praktisch sicher sein, 
daß die Alternativhypothese falsch und daher h 0 richtig ist. Die Wahl von 
R verlangt jedoch die Verwerfung der Nullhypothese. 

Nehmen wir an, die Alternativhypothese habe die folgende Beschaffen- 
heit: 







W{Ei) 


fT(E t ) 


Ki 


0,000001 


0,95 


0,049999 



Dann ist die Situation zwar nicht ganz so kraß wie im vorigen Fall, aber doch 
prinzipiell analog: Das Vorkommen von E x läuft diesmal zwar nicht auf 
einen ^praktischen Beweis c dafür hinaus, daß h Q richtig ist. Trotzdem haben 
wir starke Gründe dafür, die Richtigkeit von h 0 anzunehmen. Denn unter 
der Annahme der Richtigkeit von h A ist das Auftreten von E x viel unwahr- 
scheinlicher als im Fall der Richtigkeit von h 0 . Unser Test verlangt aber , das 
mutmaßlich Richtige verwerfen . 

Diese einfachen Beispiele sind nicht etwa als Einwendungen gegen die 
Neyman-Pearson-Theorie gedacht; denn diese Theorie arbeitet ja nicht 
nur mit dem Begriff des Umfanges, sondern daneben mit dem der Macht, 
und der eben geschilderte Test ist nicht der mächtigste Test zur Prüfung 

65 Fehlerhafte Verwerfung oder fälschliche Verwerfung einer Hypothese soll stets 
dasselbe bedeuten wie Verwerfung der Hypothese im Wahrheitsfall , d. h. in dem Fall, 
daß sie richtig ist. Analog soll korrekte Verwerfung einer Hypothese dasselbe be- 
deuten wie Verwerfung der Hypothese im Falschheitsfall. 
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von h 0 gegen die Alternative h A bzw.Z/^.Doch wird dadurch eine sozusagen 
innere Problematik im Begriff des Umfangs aufgezeigt. Solange man nicht 
mit derartigen Beispielen konfrontiert wird, scheint ein kleiner Umfang — 
inhaltlich gesprochen: eine geringe relative Häufigkeit fehlerhafter Ver- 
werfung auf lange Sicht — prima facie eine für sich wünschenswerte Eigen- 
schaft eines Tests zu sein. Tatsächlich jedoch muß man hier scharf zwischen 
zwei Fällen unterscheiden : (a) Falls man es nur mit einer einzigen Hypothese 
zu tun hat, außerdem noch kein Versuchsergebnis vorliegt, ferner eine Wette 
darüber abgeschlossen werden soll, ob der Test zu einer fehlerhaften Ver- 
werfung der Hypothese führt, wird man sich nur auf den Umfang stützen. 
Alle Tests vom gleichen Umfang — in unserem Fall gibt es nur einen Test 
vom Umfang 0,01, in komplizierteren Fällen gibt es zahlreiche — wären für 
den Wettenden gleichwertig, (b) Falls hingegen überdies ein Resultat be- 
kannt ist, führen nicht mehr alle Tests vom selben Umfang zu einem gleich 
guten Wettverhalten. In unserem Beispiel, insbesondere im ersten Fall, 
würde ein Wettverhalten, das sich nur auf den Umfang stützt, vollkommen 
irrational sein. Denn wenn darauf gewettet würde, daß die Hypothese nicht 
fälschlich verworfen werde, so ginge die Wette (fast) jedesmal, wenn es zur 
Verwerfung käme, verloren. Die Moral von der Geschichte lautet: Rationales 
Verhalten vor Bekanntwerden eines Versuchsergebnisses braucht nicht mehr rationales 
Verhalten nach dessen Bekanntwerden %u sein. 

Die bisherige Kritik richtete sich gegen den Begriff des Umfanges. Sie 
läßt sich auf den Begriff der Macht übertragen. Es sei wieder eine experimen- 
telle Anordnung X und ein Versuchstyp T gegeben. Versuche dieser Art 
können zu vier möglichen Resultaten : E l9 . . ., i? 4 führen. Zur Diskussion 
stehen zwei Hypothesen h 0 und h A . Der Gehalt dieser zwei Verteilungshypo- 
thesen soll in der folgenden Tabelle festgehalten werden. (Man beachte, daß 
im ersten Beispiel zwei sehr ähnliche Hypothesen miteinander verglichen 
wurden, während diesmal Nullhypothese und Alternativhypothese radikal 
voneinander verschiedene Behauptungen aussprechen.) 





rcßx) 


Wißt 




W(E t ) 


h 


0 


0,01 


0,01 


0,98 


h A 


0,01 


0,01 


0,97 


0,01 



Zum Unterschied vom vorigen Fall werden diesmal %wei verschiedene 
Tests mit demselben Umfang, jedoch verschiedener Macht miteinander ver- 
glichen. Beide Male handle es sich um einfache Tests. 

Erster Test: Verwerfungsklasse R = {E 3 }. 

Umfang = 0,01, 

Macht = 0,97. 
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Begründung der beiden letzten Behauptungen: Wenn h Q richtig ist, so ist die 
Wahrscheinlichkeit von E z gleich 0,01. Wenn E z eintritt, muß nach diesem Test 
b Q verworfen werden. Der Betrag 0,01 ist also dasselbe wie die Wahrscheinlichkeit, 
h 0 im Wahrheitsfall zu verwerfen, d. h. die Wahrscheinlichkeit , einen Typ-I -Fehler 
begehen . Dies aber ist nach Definition genau dasselbe wie der Umfang des Tests. 
Wenn h Q falsch und daher gemäß Voraussetzung h A richtig ist (einfacher Test!), 
so ist die Wahrscheinlichkeit von E z gleich 0,97. Die Test Vorschrift ist dieselbe: 
Bei Eintreten von E z ist h 0 zu verwerfen. Unter der Voraussetzung der Richtigkeit 
von h A ist also 0,97 die Wahrscheinlichkeit, h Q im Falschheitsfall zu verwerfen, 
m. a. W. die Wahrscheinlichkeit , keinen Typ-II-Fehler zu begehen. Nach Definition ist 
dies genau dasselbe wie die Macht des Tests. 

Zweiter Test : Verwerfungsklasse S = f E,.Eo}. 

Umfang = 0,01, 

Macht = 0,02. 

Begründung der beiden letzten Behauptungen: Die erste Behauptung ergibt 
sich analog wie oben; denn wenn h 0 wahr ist, so ist die Wahrscheinlichkeit, daß 
E x oder E z — also mindestens ein Element der Verwerfungsklasse — eintritt, 
gleich 0,01. Dies ist also wieder der Umfang, nämlich die Wahrscheinlichkeit, h 0 
fälschlich zu verwerfen. Ist dagegen h A richtig und damit h 0 falsch, so ist die 
Wahrscheinlichkeit des Eintretens eines dieser beiden Ereignisse 0,01 + 0,01 = 
0,02. Dies ist also die Wahrscheinlichkeit, h 0 korrekt zu verwerfen, d. h. keinen 
Typ-II-Irrtum zu begehen. 

Wir benennen die beiden Tests nach den entsprechenden Verwerfungs- 
klassen. Bevor man noch mit einem Versuchsergebnis konfrontiert ist , wird man 
sicherlich dem Test R vor dem Test S den Vorzug geben ; denn R hat denselben Um- 
fang wie S, jedoch eine viel größere Macht: Das Risiko, h Q im Wahrheitsfall zu 
verwerfen, ist beide Male dasselbe. Das Risiko, h Q im Falschheitsfall nicht zu 
verwerfen, also einen Typ-II-Fehler zu begehen, ist dagegen im ersten Fall 
sehr gering (nämlich 0,03), im zweiten Fall jedoch sehr groß (nämlich 0,98). 

Angenommen nun, das tatsächlich beobachtete Resultat sei E v Dann 
ist h 0 mit praktischer Sicherheit falsch. R führt jedoch nicht zur Verwerfung 
von h 0 > während S Verwerfung verlangt. S ist also R vorzuziehen. 

Diese scheinbare Paradoxie löst sich analog wie vorhin: Der Apriori- 
Vergleich der beiden Tests fiel zugunsten von R aus, der Aposteriori- Ver- 
gleich, (d. h. der Vergleich nach Vorliegen eines geeigneten Beobachtungs- 
resultats) spricht dagegen für S. 

Bei der kritischen Auswertung ist zweierlei auseinanderzuhalten: 

(I)Von neuem zeigt sich, daß Umfang und Macht zwar brauchbare 
Kriterien liefern, wenn wir eine Hypothese beurteilen sollen, bevor Ver- 
suchsresultate bekannt sind , daß sie aber zu fehlerhaften Beurteilungen statisti- 
scher Hypothesen führen können, nachdem Versuchsergebnisse vorliegen . 

Man wird vielleicht einwenden, daß damit diese beiden Begriffe prak- 
tisch doch entwertet seien, weil man ja in allen interessanten und wichtigen 
Fällen Versuchsergebnisse abwarten wird. Doch ist hier Vorsicht am Platz. 
Man übersetze die Überlegungen wieder in die Sprache der Wetten: Man 
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kann wetten, bevor einem Resultate bekannt sind, aber auch, nachdem solche 
vorliegen. Der praktisch arbeitende Statistiker wird es meist mit dem letzte- 
ren Fall zu tun haben. Wer vor einem Pferderennen eine Wette abschließt, 
steht dagegen immer vor der ersten Situation. Er wird so viele verfügbare 
Informationen wie möglich einholen, um die Wahrscheinlichkeit beurteilen 
zu können, daß die verschiedenen beteiligten Pferde gewinnen werden; 
den tatsächlichen Ausgang kann er jedoch nicht ab warten. Wenn dennoch 
das fast chancenlose Pferd gewinnt, das bisher noch nie ein Rennen gewon- 
nen hat, so zeigt dies nicht, daß seine auf Umfang und Macht basierenden 
Überlegungen falsch waren (auch wenn er sich nachträglich die Haare aus- 
raufen möchte, keine andere Wette abgeschlossen zu haben). 

(II) Das zweite Beispiel scheint prima fade einen Einwand gegen die 
Neyman-Pearson-Theorie zu enthalten. Denn dabei wird ja ein Gegenbei- 
spiel gegen das Prinzip vorgebracht, welches lautet: „ Wähle einen Test 
von geringem Umfang mit größter Macht !“ Aber dies wäre eine Uberver- 
einfachung. Die fragliche Testtheorie ist komplizierter und differenzierter. 
Sie verlangt u. a., daß ein UMP-Test gewählt werden soll, falls ein solcher 
existiert; und ein derartiger Test degeneriert im Fall einer Alternative 
zwischen einfachen Tests zu einem Likelihood-Test von der Art, wie er im 
folgenden Unterabschnitt behandelt wird. Doch nicht auf diese technischen 
Details kommt es hier an, sondern vielmehr, wie Hacking hervorhebt, auf 
folgendes: Die Theorie von Neyman und Pearson war nicht deshalb so 
erfolgreich, weil sie mit den beiden Begriffen des Umfanges und der Macht 
operiert. Niedriger Umfang und große Macht sind keine an sich wünschenswerten 
Merkmale , wenn es um die Beurteilung von Hypothesen nach Vorliegen von Beob- 
achtungsresultaten geht . Der Erfolg der Theorie beruht vielmehr darauf, daß 
darin in so geschickter Weise mit diesen beiden Begriffen operiert wird, daß 
in den meisten Fällen ein adäquater Likelihood-Test herauskommt . Die relative 
Likelihood ist ein fundamentaler Begriff; Macht und Umfang dagegen sind 
dies nicht. 

Abschließend sollen noch zwei weitere Begriffe eingeführt werden, und 
zwar aus zwei Gründen: erstens um den Eindruck zu zerstören, daß die 
Neyman-Pearson-Theorie eine so grobe Theorie ist, wie man auf Grund des 
bisher Gesagten vermuten könnte. Sie enthält Subtilitäten, von denen 
wenigstens einige angedeutet werden sollen. Zweitens werden diese beiden 
Begriffe für den Vergleich mit der im nächsten Unterabschnitt beschriebe- 
nen Theorie benötigt. 

Wir gehen davon aus, daß wir eine komplexe Hypothese H 0 mit einer 
anderen komplexen Hypothese H a vergleichen. (Der Leser erinnere sich dar- 
an, daß die Behauptung der Wahrheit von H Q dasselbe bedeutet wie die 
Behauptung, daß mindestens eine der (endlich vielen, abzählbar oder über- 
abzählbar unendlich vielen) in H 0 liegenden einfachen Hypothesen richtig 
ist. Analoges gilt für Hjß) R sei die kritische Region für H 0 . Wenn also das 
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Ergebnis eines Versuchs in R liegt, so wird H 0 verworfen, d. h. sämtliche 
in H 0 liegenden einfachen Hypothesen werden verworfen. Ein Typ-I- 
Fehler besteht jetzt darin, unter der Annahme der Wahrheit eines Elemen- 
tes h von AT 0 66 ein Resultat aus R zu erhalten. Kein Typ-II-Irrtum wird be- 
gangen, wenn H 0 im Falschheitsfall (Falschheit aller Elemente von H 0 
= Wahrheitsfall von H A = Wahrheit mindestens eines Elementes von H 
verworfen wird. 

Das Neue ist nun dies, daß das Verhältnis \ wischen der Chance , einen Typ-I- 
Fehler begehen , und der Chance , keinen Typ-II-Fehler %u begehen , berücksichtigt 

wird . Ein Test wird unverfälscht (unbiased) genannt, wenn die zweite Chance 
die erste übersteigt. Es erscheint als vernünftig, von einem Test zu verlan- 
gen, daß er unverfälscht ist. Tatsächlich wird ein nicht unverfälschter Test 
von den meisten als absurd empfunden werden : Dies wäre ja ein solcher, bei 
dem die Wahrscheinlichkeit, H 0 im Wahrheitsfall zu verwerfen, mindestens 
so groß ist wie die Wahrscheinlichkeit, H 0 im Falschheitsfall zu verwerfen. 

Diese zusätzliche Forderung von Neyman-Pearson, daß die Chance, 
H q im Wahrheitsfall zu verwerfen, kleiner sein soll als die Chance, H 0 im 
Falschheitsfall zu verwerfen, kann in der Terminologie der beiden Autoren 
bündig formuliert werden: Die Macht eines Tests soll stets dessen Umfang über- 
steigen, d. h. es soll stets gelten : 1 — ß > oc, wobei a und ß wieder die früher 
definierten Irrtumswahrscheinlichkeiten sind. Die Befolgung dieser Zusatz- 
forderung der Unverfälschtheit hat die folgende weitere Bedeutung: Wie 
bereits angedeutet, läßt sich ein UMP-Test nur sehr selten angeben. Falls 
man jedoch die Klasse der möglichen Tests von vornherein auf die Klasse 
der unverfälschten Tests beschränkt, so kann man, relativ auf diese kleinere 
Klasse , häufig einen UMP-Test finden. Er wird UMPU-Test genannt 
( c< uniformly most powerful test among unbiased tests”). Eine Forderung 
der Neyman-Pearson-Theorie lautet: „Wenn ein UMPU-Test existiert , so soll 
er gewählt werden “. 

Eine andere Überlegung stützt sich auf eine ähnliche Betrachtung wie 
jene, die CARNAPin der linguistischen Version seiner Induktiven Logik ver- 
wendet hat. Es handelt sich um den Gedanken, daß kein Test von der Art 
der Formulierung einer Hypothese abhängen darf. Ein derartiger Test wird 
invarianter Test genannt. (Man beachte jedoch, daß wegen der Zulassung der 
höheren Mathematik diese Forderung noch viel weniger trivial ist als im 
Carnapschen Fall: gleiche statistische Hypothesen können in einem völlig 
andersartigen Gewand ausgedrückt sein und der Äquivalenzbeweis kann 
sich als sehr schwierig erweisen). Auch ein derartiger Test, UMPI-Test 
genannt, ist nach Neyman-Pearson vorzuziehen. Da die Forderung der Un- 
verfälschtheit aber vorangeht bzw. als erfüllt vorausgesetzt wird, ist die Ab- 
kürzung UMPUI-Test zweckmäßiger (als Abkürzung etwa für: “invariant 

66 Dies bedeutet dasselbe wie die Annahme der Wahrheit von H 0 selbst, da 
H 0 als disjunktive Satzklasse interpretiert wird. 
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and uniformly most powerful test among unbiased tests”). Das Auswahlver- 
fahren ist in der folgenden Weise zu denken: In einem ersten Schritt be- 
schränkt man sich auf die invarianten Tests; in einem zweiten Schritt be- 
schränkt man sich weiter auf die unverfälschten unter den invarianten Tests. 
Falls in dieser so erhaltenen Klasse ein UMP-Test existiert, soll er allen 
übrigen vorgezogen werden. Dies jedenfalls ist die Empfehlung von 
Neyman und Pearson. 

9.e Die Likelihood-Testtheorie. Diese Theorie operiert überhaupt 
nicht mit den Begriffen des Umfanges und der Macht. Vielmehr verwendet 
sie als Grundbegriff den in Abschn. 4 und 5 eingeführten komparativen 
Begriff der Stützung. Der Grundgedanke kann folgendermaßen ausge- 
drückt werden : Eine Hypothese soll dann verworfen werden , wenn es eine mit ihr 
rivalisierende und viel besser gestützte Alternativhypothese gibt. Auf die Frage : 
„Was ist unter dem vagen Ausdruck 5 viel besser gestützt* genauer zu 
verstehen ?“ läßt sich selbst dann keine eindeutige Antwort geben, wenn 
der Stützungs vergleich entsprechend dem in Abschnitt 5 gemachten Vor- 
schlag definitorisch auf den Likelihoodvergleich zurückgeführt wird. Man 
kann nichts weiter tun, als Testkriterien verschiedener Schärfe zu entwickeln. 
Dies soll in quantitativer Weise geschehen, indem jedem Test eine kritische 
Zahl y zugeordnet wird. Die Auswahl eines ganz bestimmten Tests, der 
seinen Niederschlag in der Wahl der Zahl y findet, wird dann Sache eines 
freien Entschlusses sein (der aber natürlich sinnvoll motiviert sein muß). 

Wir beginnen mit einer groben Erläuterung: y sei eine rationale Zahl, 
die größer ist als 1. Wir sagen dann, daß bei Vorliegen des Resultates E 
die Hypothese h 0 zugunsten der Alternativhypothese h A auf der kritischen 
Stufe y verworfen wird, wenn das Likelihood-Verhältnis bezüglich des Resul- 
tates E y also L(h Ai E) I L(h 0 y E), den Wert y übersteigt. 

Ebenso wie im vorigen Unterabschnitt unterscheiden wir auch hier 
zwischen einfachen und komplexen statistischen Hypothesen. In den stati- 
stischen Daten wird auf eine Klasse A von statistischen Verteilungen Bezug 
genommen. Sofern eine einfache Hypothese vorliegt, nach welcher die wahre 
Verteilung D ist, so besagt die Verträglichkeit mit den Daten , daß D £ A. 
Liegt eine komplexe Hypothese mit einer Verteilungsklasse /Vor, so lautet 
die entsprechende Verträglichkeitsannahme: T C A. 

Da wir den Ausdruck „statistische Hypothese“ nicht im Sinn der 
kombinierten statistischen Proposition verwenden, sondern in dem Sinn, der 
mit dem ersten Tripel einer kombinierten Proposition zusammen fällt, ist 
die ausdrückliche Bezugnahme auf ein empirisches Resultat notwendig. 
Auch der Begriff des Datums enthalte vorläufig nur den ersten Teil einer 
kombinierten Proposition, d. h. die Beschränkung der statistischen Hypo- 
these auf eine Klasse von Verteilungen. 

Es sei y eine vorgegebene Zahl > 1 . h 0 sei eine mit den Daten e verträg- 
liche einfache statistische Hypothese, welche besagt, daß D 0 bei Versuchen 
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der Art T an der Anordnung X die wahre Verteilung ist; h 1 sei eine ebenfalls 
mit e verträgliche einfache statistische Hypothese, wonach bei Versuchen 
der Art 7" an X die wahre Verteilung D x ist. Die Ungleichung L hitho (E) > 
y sei eine Abkürzung für die Feststellung, daß die Likelihood von h x bezüg- 
lich E , dividiert durch die Likelihood von h Q bezüglich E, größer ist als y; 
abgekürzt daß (L(ä 1} E) / L(h^ E)) > y, oder, nochmals anders geschrieben, 
daß gilt: 

die Chance , E im Fall der Wahrheit von h x zu erhalten 
die Chance , E im Fall der Wahrheit von h 0 zu erhalten ^ ^ ’ 

Wir sagen, daß h Q bei Vorliegen von E y- verwerfbar ist, wenn es eine 
mit den Daten e verträgliche einfache statistische Hypothese h L gibt, so daß 
gilt: 

(*) iß) > y- 

Ist diese Bedingung gegeben, so sagen wir: Der Likelihood-Test verlangt 
eine Verwerfung von h 0 auf der kritischen Stufe y. 

In Analogie zur Neyman-Pearson-Theorie kann man die Klasse der 
Resultate E, für welche diese Ungleichung gilt, als Veriverfungsklasse R für 
h Q bezeichnen 67 . Dabei ist jedoch ein doppelter Unterschied gegenüber dem 
analogen Begriff jener anderen Theorie zu beachten: 

(1) Man kann nicht schlechthin von der Verwerfungsklasse R sprechen, 
sondern nur von einer y-V erwerfungsklasse R bezüglich h Q ; denn die kri- 
tische Region hängt diesmal von der vorher gewählten rationalen Zahl y ab. 

(2) Ein noch wichtigerer Unterschied besteht darin, daß gegenüber 
der Neyman-Pearson-Theorie nicht von einer festen Alternativhypothese 
h a ausgegangen wird. Die Verwerfungsklasse R besteht daher nicht aus der 
Klasse aller möglichen Resultate E> so daß L h Ä , ho (E) > y für ein festes h A . 
Vielmehr enthält die Bestimmung einen Existenzquantor, der über alle mit 
den Daten e verträglichen einfachen statistischen Hypothesen läuft. Die y- 
Verwerfungsklasse R ist die Klasse aller möglichen Resultate E, so daß es 
eine mit e verträgliche Hypothese h x gibt, welche die Ungleichung (*) er- 
füllt. 

Der Begriff der y- Ver werfbar keit kann auf den Fall einer komplexen 
Hypothese übertragen werden. Wenn h eine einfache Hypothese ist, die D 
zur wahren Verteilung erklärt, und H eine komplexe Hypothese ist, nach 
welcher die wahre Verteilung in r liegt, so sagen wir, daß h in H liegt , wenn 

d er. 

Ferner wird eine mit den Daten verträgliche komplexe Hypothese H 0 
bei Vorliegen von E als y-verwerfbar erklärt, wenn für jede einfache sta- 

67 Um keine terminologische Verwirrung entstehen zu lassen, verwenden wir 
diesmal das Prädikat „kritische Region“ nicht. Denn der Ausdruck „kritisch“ 
wird jetzt im Kontext von „kritische Zahl y“ benützt. 
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tistische Hypothese h, welche in H 0 liegt, eine mit den Daten verträgliche 
einfache statistische Hypothese h' existiert, so daß L h > th (E) > y. 

Die Klasse dieser möglichen Resultate E bildet die y-Veriverfungsklasse 
för Hq, 

Wir wollen noch andeuten, wie diese Begriffe in die Sprache der kombinierten 
Propositionen zu übersetzen sind, e , b 0 , h 1 usw. seien jetzt kombinierte statistische 
Propositionen. Die erste Komponente von e ist ein Satz, der bei inhaltlicher Deu- 
tung besagt, daß die wahre Verteilung in A liegt. Die Verträglichkeit einer (ein- 
fachen oder nichteinfachen) kombinierten Proposition h mit e besagt nun, daß die 
erste Komponente von h mit der ersten Komponente von e im obigen Sinn ver- 
träglich ist. Unter einer disjunktiven Satzklasse verstehen wir eine Klasse von Sätzen 
die genau dann als wahr erklärt wird, wenn mindestens ein Element der Klasse 
wahr wird. Jede komplexe kombinierte Proposition ist logisch äquivalent mit 
einer disjunktiven Klasse einfacher Propositionen. 

Eine einfache kombinierte statistische Aussage h 0 heißt y-verwerfbar auf Grund 
des Datums e , wenn die zweite Komponente von h 0 mit der von e identisch ist und 
wenn entweder b 0 logisch unverträglich ist mit e oder wenn eine in e eingeschlossene 
einfache kombinierte statistische Aussage h L existiert, so daß das Likelihood- Ver- 
hältnis L(hj) I L(h 0 ) größer ist als y 68 . 

Eine Likelihood-Test bezüglich des Datums e für die einfache kombinierte 
statistische Hypothese h mit der kritischen Zahl y (kurz: ein y-Likelihood- 
Test für h bezüglich e ) ist ein Test, der Verwerfung von h vor schreibt, wenn 
eine der folgenden beiden Bedingungen (a) oder (b) erfüllt ist : 

(a) h ist eine auf Grund von e y-verwerfbare einfache kombinierte Pro- 
position, so daß auch jede aus eh h logisch folgende einfache kombinierte 
Proposition auf Grund von e y-verwerfbar ist; 

(b) h ist eine komplexe kombinierte Proposition, so daß für jede be- 
liebige, mit h logisch äquivalente disjunktive Klasse K einfacher kombi- 
nierter Propositionen gilt: jedes Element h' von K erfüllt die Bedingung 
(a) (mit h' für h ). 

Der Likelihood-Test ist auf eine kritische Zahl y relativ. Je kleiner y ist , 
desto kritischer ( empfindlicher) wird der Test , d. h. desto mehr wird verworfen, 

Anmerkung. Man kann die kritische Zahl y natürlich auch auf das Intervall 
zwischen 0 und 1 beschränken. Dann muß man jeweils Zähler und Nenner in den 
obigen Brüchen vertauschen und „>“ durch „<“ ersetzen. Die Verwerfung wird 
hier davon abhängig gemacht, ob Z, Ä0 , Äl ( E ) < y. Ein Test ist bei diesem Vor- 
gehen um so kritischer (empfindlicher), je größer y ist. 

An dieser Stelle berührt sich die Likeühood-Testtheorie mit der 
personalistischen Wahrscheinlichkeitsauffassung. Man kann die Zahl y als 
eine für eine Person Y charakteristische Zahl auffassen. In der Wahl von y steckt 
die subjektive Komponente bei der Beurteilung statistischer Hypothesen. Davon ließe 
sich nur dann abstrahieren, wenn es Gründe gäbe, ein für allemal eine feste 

68 Man beachte, daß wir diesmal nicht auf ein bestimmtes Resultat Bezug 
nehmen müssen. Davon wird bereits im zweiten Glied gesprochen, das aufgrund 
der übrigen Bestimmungen in e , h Q und h x identisch ist. 
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Zahl y zu wählen. Dies liefe darauf hinaus, nur Unterschiede in den statisti- 
schen Daten gelten zu lassen. Das wäre jedoch ein höchst unrealistisches Vor- 
gehen. „Alles ist gleich geblieben außer den statistischen Daten“ ist meist 
eine unbrauchbare, weil fiktive Annahme. 

Die Wahl von y kann von vielerlei Faktoren abhängen; jedenfalls wer- 
den dies meist außerstatistische Faktoren sein. Drei solche Faktoren seien 
angeführt: (1) Gewisse nichtstatistische Daten sprechen nach Auffassung von 
Y gegen h . Y entschließt sich daher, einen sehr kritischen Test zu wählen; (2) 
Y macht die Wahl abhängig davon, wie schwerwiegend die praktischen Konse- 
quenzen einer fehlerhaften Annahme von h sind; (3) Charakterliche Merkmale 
finden Eingang in die Wahl: Die Neigung, eine relativ niedrige kritische 
Zahl zu wählen, ist symptomatisch für Skeptiker und Pedanten, die auch 
weit entfernte Möglichkeiten ins Auge fassen. Mit einer höheren Zahl wer- 
den sich hingegen sogenannte vernünftige Männer 4 zufrieden geben, die, 
wie man zu sagen pflegt, mit beiden Beinen im Leben stehen und rasche 
Entscheidungen zu fällen haben. 

Keine objektive Lösung, sondern nur eine weitere Differenzierung läge 
vor, wenn man zusätzlich zur kritischen Zahl y einen Koeffizienten anführen 
wollte, der die Ernsthaftigkeit von h 0 gegenüber h^ ausdrückt 69 . Beispiel: Es 
werde ein Impfstoff gegen MS (multiple Sklerose) gefunden, der vor dem 
6. Lebensjahr verabreicht werden muß. Die Nullhypothese enthalte u. a. 
die Teilbehauptung, daß die geimpften Kinder zu einem großen Teil vor 
Erreichung des 20. Lebensjahres an einer durch die Impfung erzeugten 
Herzkrankheit sterben werden. Die Alternativhypothese leugne eine der- 
artige Gefahr. Die erste Hypothese ist viel ernster als die zweite, daher wird 
ihr ein sehr hoher Ernsthaftigkeitskoeffizient a zugeordnet, der zweiten 
hingegen ein kleiner Koeffizient b . Beim Test von h Q gegen h^ wird die 
ursprünglich gewählte kritische Zahl y durch y • ajb ersetzt. Während es 
ursprünglich vielleicht bald zu einer Verwerfung von h Q gekommen wäre, 
wird nun h Q (wegen ihrer Ernsthaftigkeit) erst dann verworfen, wenn sehr 
viele Daten gegen sie sprechen. 

Eine derartige Modifikation mag als sehr wünschenswert erscheinen. 
Doch dürfte es ein hoffnungsloses Unterfangen sein, eine , objektive 
Theorie der Ernsthaftigkeit 4 zu entwickeln. Es tritt also zu dem weitgehend 
subjektiven Faktor y ein zweiter subjektiver Faktor a\b. 

Verschiedene Wahlen der kritischen Zahl (und evtl, weitere Faktoren) 
können zu Konflikten zwischen Personen führen. Gleiche Daten können 
beim einen zur Verwerfung führen, wo der andere infolge der von ihm ge- 
wählten höheren kritischen Zahl keine Verwerfung vornimmt. Wie ist der 
Konflikt zu lösen ? Hier dürfte es nur einen Ausweg geben : Man muß die 
Personen dazu bringen, neue relevante Daten zu sammeln, in der Hoffnung, 

69 Ein solcher Vorschlag geht auf D. V. Lindley zurück. 
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daß sich dadurch die Meinungsverschiedenheiten beheben lassen werden 
(da beide zur Verwerfung bzw. zur Nichtverwerfung gelangen). 

Es wird aber immer Fälle geben, in denen der Konflikt sich nicht lösen 
läßt. Ein Beispiel, das auf Gossett zurückgehen soll, möge dies verdeut- 
lichen: In einem Kartenspiel erhalte ich als einziger Spieler sämtliche 13 
Trümpfe. Da dieses Ereignis unter der Annahme, daß die Karten nicht ge- 
fälscht sind, ungeheuer unwahrscheinlich ist, werden vermutlich alle an- 
deren am Spiel Beteiligten (sowie eventuelle Zuschauer) die Hypothese ver- 
werfen, daß es sich um ein korrektes Spiel handelt. Der einzige, der an der 
Hypothese, daß es sich tatsächlich um eine zufällige Stichprobe handle, 
trotzdem festhält, bin ich selbst. Denn ich war es, der das Spiel seinerzeit 
kaufte und oft benützte; und ich war es auch, der das Spiel gut gemischt und 
die Karten verteilt hat. Nichts wird mich daher von der Überzeugung abbrin- 
gen, daß alles mit rechten Dingen zugegangen ist. Trotz des Protestes der 
übrigen werde ich sagen, daß sich eben etwas ungeheuer Unwahrscheinliches 
tatsächlich ereignet hat. 

In einer Hinsicht ist das Bild von Braithwaite mit den beiden Körben 
zu revidieren. Es ist zwar wichtig, sich immer wieder daran zu erinnern, 
daß Verwerfung niemals dasselbe ist wie Widerlegung, wie immer die be- 
nützte Testtheorie auch aussehen mag^ so daß es stets theoretisch denkbar ist, 
daß neue Daten zur Wiederaufnahme von etwas früher Verworfenem führen 
können (und natürlich auch umgekehrt zur Verwerfung von etwas früher 
Akzeptiertem). Dieser theoretischen Möglichkeit steht jedoch ein prakti- 
sches “Aber” gegenüber. Das zuletzt gebrachte Beispiel bildet dafür keine 
Illustration (sondern eine Illustration dafür, daß es Grenzfälle gibt, in denen 
etwas aus anderen Gründen beibehalten wird, obwohl jede rationale Test- 
theorie bei den vorliegenden Daten Verwerfung empfiehlt). Ein Illustra- 
tionsbeispiel für das zuletzt Gesagte wäre vielmehr folgendes: Ich werfe 
5000mal eine Münze und erhalte 4999mal K und nur einmal S. Ich werde die 
Hypothese, daß es sich um eine Binomialverteilung mit dem Parameter 1/2 
handelt, endgültig verwerfen. Was aber, wenn die nächsten 100000 Würfe an- 
nähernd gleichviel Resultate K und S ergeben ? Nun : dann werde ich nicht 
die Verwerfung rückgängig machen, sondern nach anderen Auswegen 
suchen, z. B. den wählen zu sagen, die experimentellen Verhältnisse hätten 
sich (in einer mir selbst unbekannten Weise) geändert, so daß jetzt # = 1/2 
gilt, während bei den ersten 5000 Würfen diese Gleichung nicht bestand. 
Das letztere wäre dann die aufgrund der neuen Daten gestützte Alterna- 
tivhypothese. Solche Alternativen werden sich immer finden lassen. Man 
könnte dies auch als einen jener Fälle betrachten, in denen wir die Diskus- 
sionsebene miteinander rivalisierender statistischer Hypothesen verlassen und 
Oberhypothesen angreifen und preisgeben, die ursprünglich stillschweigend als 
gültig vorausgesetzt worden waren (im vorliegenden Fall die Oberhypothese, 
daß für die Versuche eine Unabhängigkeit im zweiten Wortsinn bestand) 
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Es wurde früher behauptet, daß auch die NEYMAN-PEARSON-Theorie nur 
eine verklausulierte Likelihood-T esttheorie sei. Fällt sie also mit der hier 
beschriebenen Theorie zusammen? Die Antwort lautet: „Nein“. Der Nach- 
weis kann in der Weise erbracht werden, daß man einen UMPUI-Test an- 
gibt, der kein y-Likelihood-Test ist. 

Für den Nachweis wird eine etwas merkwürdige experimentelle Anord- 
nung benützt. Wir beschreiben sie in zwei Schritten. Im ersten Schritt 
wird eine Anordnung von der bereits bekannten Art konstruiert. Im zwei- 
ten Schritt wird diese dadurch modifiziert, daß man einen Hilfsmechanismus, 
“Randomizer” genannt, in die zunächst gebildete Anordnung einbaut. De r 
Likelihood-Test kann bereits nach Vollendung des ersten Schrittes angege- 
ben werden, der UMPUI-Test erst nach Bildung des zweiten Schrittes. 

1 . Schritt . Die Versuchsart T an der Anordnung X habe 101 mögliche 
Resultate E 0 > E ly . . ., E 100 . Der Einfachheit halber bezeichnen wir diese 
Resultate durch die Zahlen: 0,1, . . ., 100. Zur Diskussion stehen eine ein- 
fache Nullhypothese h 0 und eine komplexe Alternativhypothese H A , die selbst 
wieder 100 einfache Hypothesen j v . . .J 100 umfaßt. (Insgesamt haben wir es 
also mit 101 einfachen Hypothesen zu tun.) Wir beschreiben die Hypothesen 
zunächst wortsprachlich und fassen dann ihren Gehalt in einer Tabelle zu- 
sammen. 

Nullhypothese h 0 : Die Chance, bei Versuchen vom Typ T an der Anord- 
nung X das Resultat 0 zu erhalten, beträgt 0,9. Für die Resultate 1 bis 100 
besteht Chancengleichheit und zwar ist die Chance dafür stets 0,001. 

Alternativhypothese H A : Sie besagt, daß mindestens eine 70 der 100 Vertei- 
lungshypothesen j x , . . . ,y 100 zutrifft. (Man erinnere sich daran, daß komplexe 
Hypothesen stets als disjunktive Klassen aufgefaßt werden können.) j n für 
n = 1, . . ., 100 besagt erstens, daß die Chance, das Resultat 0 zu erhalten, 
gleich 0,91 sei; zweitens, daß die Chance, das Resultat n zu erhalten, gleich 
0,09 sei; und drittens, daß die Chance, ein Resultat m mit m ^ 0 und m # n 
zu erhalten, gleich 0 sei. 
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In der zweiten Zeile sind die 100 einfachen Hypothesen j n schematisch 
beschrieben. Der Unterschied zwischen der dritten und vierten Spalte ist nur 

70 Da die Hypothesen j n miteinander logisch unverträglich sind, kann das 
„mindestens eine“ zu „genau eine“ verschärft werden. 
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für diese Hypothesen von Relevanz, nicht dagegen für h 0 , welches ja für 
alle von 0 verschiedenen Resultate dieselbe Behauptung aufstellt. 

Bevor wir nun zum zweiten Schritt übergehen, formulieren wir die Auf- 
gabe, die sich auch nach diesem weiteren Schritt nicht ändert: Es soll ein Test 
vom Umfang 0,1 angegeben werden , der nach Vornahme eines einzigen Versuchs vom 
Typ T eine Entscheidung herbeiführt , sei es zugunsten einer Hypothese , sei es zu- 
gunsten einer Enthaltung. 

Dazu werde zunächst eine inhaltliche Plausibilitätsüberlegung ange- 
stellt, welche nur dazu dienen soll, die Wahl eines bestimmten Tests zu 
motivieren: Wenn 0 eintrifft, so wird sich kaum eine Entscheidung zwi- 
schen h Q und H a treffen lassen. Dieses Ergebnis hat nämlich fast dieselbe 
Wahrscheinlichkeit, wenn h Q richtig ist, wie wenn H A richtig ist. Im Wahr- 
heitsfall von H A ist die Wahrscheinlichkeit nur ganz geringfügig, nämlich 
um 1/100, größer. Falls jedoch ein von 0 verschiedenes Resultat heraus- 
kommt, ist die Sachlage eine völlig andere. Angenommen, es ergäbe sich 
das Resultat 37. Dann besagt H A dasselbe wie daß j 37 zutrifft; denn die 
übrigen 99 einfachen Hypothesen von H A sind mit dem Resultat unverträg- 
lich. Der Vergleich zwischen der Nullhypothese und H A reduziert sich also 
auf einen Vergleich zwischen h 0 und j 37 . Falls h 0 richtig ist, hätte sich etwas 
sehr Unwahrscheinliches ereignet, nämlich etwas, das nur in 1/1000 der 
Fälle vorkommt. Wenn hingegen j 37 richtig ist, so hätte sich immerhin etwas 
nicht allzu seltenes ereignet, nämlich etwas, das mit einer Wahrscheinlichkeit 
von 9/100, d. h. beinahe 1/10, vorkommt (also etwas fast hundertmal Wahr- 
scheinlicheres als im Fall der Richtigkeit von h 0 ). Das Vorkommen des 
Resultates 37 ist somit ein deutliches Indiz dafür, daß j 37 (und damit H A !) 
richtig und h Q falsch ist. Eine analoge Überlegung läßt sich natürlich für 
jedes Resultat k mit 1 ^ k < 100 anstellen. 

Es liegt daher nahe, einen Test zu wählen, der zwar bei Vorkommen von 
0 keine Entscheidung zugunsten von h 0 oder von H A gestattet, der jedoch 
bei Vorkommen eines Resultates zwischen 1 und 100 eine Verwerfung von 
h Q und die Annahme von H A (über die Annahme einer entsprechenden ein- 
fachen Hypothese von H yf) vorschreibt. Ein Likelihood-Test y der dieses 
leistet, läßt sich leicht angeben. Dazu braucht man lediglich eine kritische 
Zahl y zu wählen, die größer ist als 91/90, aber nicht größer als 89, also etwa 
die Zahl 4. Beim Resultat 0 ist keine Entscheidung möglich ; denn das Likeli- 
hood-Verhältnis Eh a ,^ (0) ist 91/90 und somit kleiner als die gewählte 
kritische Zahl. Dagegen ist h 0 z u verwerfen , wenn ein Resultat k mit k > 0 vor- 
kommt . Denn das Likelihood-Verhältnis Lj k ho (k) == ^ jiOÖ Ö “ ^ a ^ so 
größer als die gewählte kritische Zahl. 

Damit ist die Beschreibung des Likelihood-Tests beendet. Versuchen 
wir nun, einen Test anzugeben, der in der Sprache der Neyman-Pearson- 
Theorie formuliert ist! Dazu verwenden wir die zweite kursiv gedruckte 
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Aussage des vorigen Absatzes als Verwerfungsregel; die Vermrfungsklasse 
besteht also aus allen von 0 verschiedenen Elementen des Stichprobenraumes . (Für den 
Fall des Vorkommens von 0 kann dadurch Einklang mit dem anderen Test 
erzielt werden, daß Nichtverwerfung nicht Annahme, sondern Enthaltung 
bedeuten soll. In dieser Hinsicht laufen die Modifikationen der beiden Tests 
vollkommen parallel.) Die eingangs gestellte Aufgabe wäre erfüllt, sofern 
sich keine weiteren Bedenken ergäben, da der Test den Umfang 0,1 hat. 
(Aus der Tabelle sowie den wahrscheinlichkeitstheoretischen Axiomen er- 
gibt sich, daß die Wahrscheinlichkeit einer fälschlichen Verwerfung von 
h 0 = 0,1 ist.) 

Leider aber tritt ein Bedenken auf. Der Test widerspricht den Prin- 
zipien der NEYMAN-PEARSON-Theorie, da er nicht unverfälscht ist. Die Macht 
des Tests (die Wahrscheinlichkeit der Verwerfung von h 0 im Falschheits- 
fall) beträgt 0,09, und dies ist eine kleinere Zahl als 0,1. Die Macht ist also 
kleiner als der Umfang. Dies darf (nach der Theorie von Neyman und Pear- 
son) nicht sein. Daher erfolgt eine Modifikation. Diese Modifikation wird 
absichtlich so gewählt, daß es jetzt zu einer Verwerfung in ganz anderen 
Situationen kommt. 

2, Schritt . Es wird eine weitere experimentelle Anordnung AT* heran- 
gezogen, die wir als Hilfsmechanismus oder als Randomi^er bezeichnen. Ver- 
suche vom Typ 7"* an AT* liefern zwei mögliche Resultate A und B mit 
W(A) = 8/9 und W(B) — 1/9. Es muß vorausgesetzt werden, daß Ver- 
suche vom Typ T an X unabhängig sind von den Versuchen vom Typ 7"* 
an Af*. Das Wissen um die durch den Randomizer gelieferte Wahrschein- 
lichkeiten wird in die statistischen Daten einbezogen. 

Der neue Test basiere auf der folgenden 

Verwerfungsregel : h 0 ist genau dann %u verwerfen , wenn (bei Versuchen vom 
Typ T an X) 0 vor kommt und der Randomizer das Resultat B liefert . 

Dieser Test ist ein UMPUI-Test. 

Begründung: Der Umfang des neuen Tests ist ebenso wie der des alten 0,1. 
Angenommen nämlich, h 0 sei wahr. Verwerfung ist nur vorgeschrieben, wenn 
sowohl 0 als auch B vor kommt. Wegen der Unabhängigkeit multiplizieren sich 
die Wahrscheinlichkeiten zu 0,9 • 1/9 = 0,1. 

Die Macht des Tests ist größer als 0,1. Angenommen nämlich, h 0 sei falsch. 
Dann ist eines der j n richtig, also die Wahrscheinlichkeit des Vorkommens von 0 
gleich 0,91. Die Wahrscheinlichkeit, daß außerdem B vor kommt, ist wiederum 
1/9, also die Wahrscheinlichkeit, keinen Typ-II-Fehler zu begehen, gleich 0,91 • 
1/9 > 0,1. (Die Macht übersteigt den Umfang um 1/900.) 

Der Test ist also unverfälscht . Da er auch nicht von der Art der sprachlichen 
Formulierung der Hypothesen abhängt, ist er überdies invariant. Damit ist die 
Behauptung bewiesen. 

Vergleichen wir nun die beiden Tests miteinander, so sehen wir sofort, 
daß sie stets voneinander abweichende Resultate liefern : Nach dem Likeli- 
hood-Test ist h Q zu verwerfen, wenn ein Resultat k > 0 vorkommt. Gemäß 
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dem Test, der nach den Prinzipien der NEYMAN-PEARSON-Theorie konstruiert 
wurde, wird dagegen h Q nur dann verworfen, wenn 0 vorkommt (nämlich 
wenn 0 vorkommt und sich noch etwas Weiteres ereignet). Die beiden Tests 
sind miteinander unverträglich. 

Zwecks Verdeutlichung seien einige Bemerkungen angefügt: 

(1) Nur die Theorie von Neyman-Pearson arbeitet explizit mit dem 
Begriff „Umfang eines Tests“. Der Begriff als solcher ist aber von jeder 
Relativität auf eine Testtheorie frei. Wir können daher auch sagen, daß der 
geschilderte Likelihood-Test den Umfang 0,1 habe. Es wurden also tat- 
sächlich zwei Tests vom selben Umfang 0,1 miteinander verglichen. 

(2) Die obige Plausibilitätsbetrachtung, welche zum Likelihood-Test 
führte, läßt sich natürlich nicht auf den Test der NEYMAN-PEARSON-Theorie 
übertragen. Eine solche Übertragung ist auch gar nicht bezweckt. Beim 
zweiten Test kam es lediglich darauf an, eine Verwerfungsregel zu konstru- 
ieren, welche den immanenten Kriterien der Neyman-Pearson-Theorie genügt . Im 
vorliegenden Fall war dies die Forderung, daß der Test ein UMPUI-Test 
zu sein habe. 

(3) Der Vergleich zeigt, daß in gewissen Fällen die Neyman-Pearson- 
Theorie zu inadäquaten Vorschlägen führt. Vorausgesetzt wird dabei, daß 
die Plausibilitätsbetrachtung, welche zu dem Likelihood-Test führte, als 
überzeugend angesehen wird. Dabei tritt noch die ebenfalls kaum anfecht- 
bare Überlegung hinzu, daß im vorliegenden Fall die so gewonnene Ver- 
werfungsregel für h Q nicht deshalb umgestoßen und durch eine ihr wider- 
sprechende ersetzt werden darf, weil es einen weiteren Zufallsmechanismus 
gibt, dessen Resultate mit den durch h 0 beschriebenen Resultaten überhaupt 
nichts zu tun haben. 

(4) Der Grund für die Überlegenheit des Likelihood-Tests ist leicht an- 
gebbar. Er besteht in der Rückbe^ogenheit der Verwerfungsregel auf einen präzisen 
Begriff der Stützung. Dieser Stützungsbegriff ist, wie wir uns erinnern, ein 
zweistelliger Relationsbegriff \ nämlich ein komparativer Bestätigungsbegriff für 
statistische Hypothesen. Mittels dieses Begriffs läßt sich eine Verwerfung 
rechtfertigen: Eine statistische Hypothese wird bei Vorliegen geeigneter 
Beobachtungsbefunde deshalb verworfen, weil es eine mit ihr konkur- 
rierende und viel besser gestützte statistische Alternativhypothese gibt. In dem 
Wort „viel“ steckt zwar eine nicht zu eliminierende subjektive Komponente. 
Doch wird die zunächst darin enthaltene Vagheit durch die Angabe der kri- 
tischen Zahl beseitigt. (Und mehr kann wohl nicht verlangt werden, da für 
die Wahl dieser Zahl pragmatische Umstände, wie z. B. die Wichtigkeit der 
Hypothese und der Ernst der Situation, maßgebend sind.) 

Da es für die Formulierung einer Verwerfungsregel unerläßlich ist, 
auf miteinander rivalisierende Hypothesen Bezug z u nehmen , haben wir auch eine 
nachträgliche Begründung dafür erhalten, daß die Bestätigungsdefinition 
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gerade auf einen komparativen Stützungsbegriff abzielte; denn nur ein solcher 
kann für die erwähnte Rechtfertigung herangezogen werden. 

Die NEYMAN-PEARSON-Theorie beruht demgegenüber bloß auf gewissen 
Plausibilitätsbetrachtungen, die überdies ihrer Natur nach alle rein fre - 
quentistisch sind und deshalb den substantiellen Einwendungen gegen die 
Häufigkeitsinterpretation zum Opfer fallen. Auf jeden Fall fehlt dieser 
Theorie in Ermangelung einer Bestätigungsdefinition für statistische Hypo- 
thesen das systematische Fundament. Der oben geschilderte HACKiNGsche 
Trick, durch Benützung eines Randomizers einen unverfälschten Test zu 
konstruieren, dessen Resultate unplausibel sind, macht es nur besonders 
deutlich, daß hier ein wirklicher Mangel vorliegt. 

(5) Dieser intuitive Nachweis für die relative Überlegenheit des Likeli- 
hood-Tests darf andererseits nicht überbewertet werden. Die Adäquatheit 
der Likelihood-Testtheorie ist damit nicht gezeigt worden. In Abschnitt 11 
soll die Eignung des Likeühoodbegriffs für eine Stützungs- und Testtheorie 
untersucht werden. 

10. Probleme der Schätzungstheorie 

10.a Vorbemerkungen. Experten im Gebiet der mathematischen Statistik 
führen den Ausdruck „statistisches Schließen“ gewöhnlich erstmals in 
dem Abschnitt ein, in welchem sie sich mit Schätzungen beschäftigen. So 
z. B. lautet der erste Satz von Kap. 9 über Punktschätzung bei J. E. Freund : 
,, Unter statistischem Schließen versteht man den Prozeß, durch den man aufgrund von 
Informationen über Stichproben %u Konklusionen oder %u Entscheidungen über Para- 
meter von Grundgesamtheiten gelangt“ 11 . Probleme des statistischen Schließens 
werden dann eingeteilt in die Probleme der Schätzung und die Probleme des 
Tests von statistischen Hypothesen . Im ersten Fall geht es um Mutmaßungen 
über unbekannte Parameter von Verteilungen, im zweiten Fall um die be- 
reits im vorangehenden Abschnitt diskutierten Regeln zur Annahme und 
Verwerfung von statistischen Hypothesen. In beiden Fällen aber wollen die 
Statistiker noch mehr, wie aus dem obigen Zitat hervorgeht, nämlich zu 
vernünftigen Entscheidungen gelangen oder besser: zu Vorschlägen für solche 
Entscheidungen. 

Mit dieser Auffassung werden wir uns im folgenden auseinandersetzen. 
Die klärenden Bemühungen werden bisweilen die Form starker Polemiken 
annehmen. In der Schätzungstheorie werden nämlich zwei ganz verschie- 
dene Typen von Fragen ständig miteinander verquickt: theoretische Proble- 
me und praktische Entscheidungsfragen . Es handelt sich um eine ähnliche un- 
selige Verquickung wie jene, die sich in der ursprünglichen Version von 

71 “Statistical inference is the process of arriving at conclusions or decisions 
concerning the parameters of populations on the basis of information contained in 
samples”. [Statistics], S. 209. 
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Carnaps Induktiver Logik findet und von der sich Carnap erst allmählich, 
durch Beschränkung auf die Grundlegung der normativen Entscheidungs- 
theorie, befreite. 

Vom systematischen Standpunkt aus betrachtet wäre es vernünftiger ge- 
wesen, die meisten der folgenden Überlegungen bereits im Abschnitt 9 
anzustellen, da es sich ja auch dort bereits um einen Spezialfall des sog. sta- 
tistischen Schließens handelte. Doch wären dadurch die in jenem Abschnitt 
erörterten Fragen, die ohnehin schon recht schwierig sind, noch zusätzlich 
kompliziert worden. Vom didaktischen Standpunkt aus erwies es sich da- 
her als ratsamer, diese Betrachtungen erst jetzt anzustellen. 

Wir werden methodisch folgendermaßen Vorgehen : Zunächst nehmen 
wir eine vorbereitende Klärung des Begriffs der Schätzung vor, um dann 
gleich auf die Klassifikation der Schätzungsprobleme zu sprechen zu kom- 
men. In einem weiteren Unterabschnitt sollen die wichtigsten technischen 
Begriffe der Schätzungstheorie eingeführt werden. Dies ist das einzige Mal, 
wo wir von dem in den vorangehenden Abschnitten benützten Formalismus 
abgehen und auf den üblichen Formalismus der Zufalls- und Verteilungs- 
funktionen zurückgreifen. Im folgenden sollen dann verschiedene Differen- 
zierungen vorgenommen werden, z. B. in bezug auf die sog. Güte einer 
Schätzung, ferner bezüglich des theoretischen und des praktischen Aspek- 
tes von Schätzungen. Unter anderem soll die Frage erörtert werden, ob auch 
der Theorie der Schätzung eine Theorie der Stützung statistischer Hypo- 
thesen voranzustellen ist. 

lO.b Was ist Schätzung? Klassifikation von Schätzungen. Während 
im Alltag das Wort „schätzen“ viele Verwendungen hat, sowohl in de- 
skriptiven Äußerungen wie in bewertenden Stellungnahmen, wird es als 
technischer Ausdruck in der Statistik nur dort benützt, wo es darum geht, 
eine Vermutung über den tatsächlichen oder wahren Wert einer Größe zu 
äußern. Nur wo ein Begriff bereits als quantitativer Begriff eingeführt worden 
ist, d. h. wo eine metrische Skala zur Verfügung steht, kann von Schätzung 
im statistischen Sinn die Rede sein. 

Wenn man auf die Frage : „Welche Temperatur herrscht heute im Freien?“ 
antwortet: „Ich schätze, sie beträgt 19° C“, so stellt man eine Mutmaßung 
über den genauen wahren Temperaturwert auf. Falls man hingegen die Frage : 
„Wie weit ist dieses Haus von hier entfernt?“ mit den Worten beantwortet: 
„Ich schätze, 330 bis 360 Meter“, so stellt man zwar ebenfalls eine Mut- 
maßung auf, aber nur darüber , daß der wahre Wert der Entfernung in dem ange- 
gebenen Intervall liegt . 

Die beiden gegebenen Arten von Antworten illustrieren bereits zwei 
Typen von Schätzungen, die in der Statistik unterschieden werden: Punkt- 
schätzungen und Intervallschätzungen. Die Worte „Punkt“ und „Inter- 
vall“ sind der geometrischen Veranschaulichung von Zahlen entnommen. 
Bei der Punkt Schätzung wird versucht, den wahren Wert der Größe ganz 
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genau zu treffen. Bei der Intervallschät^ung begnügt man sich damit, ver- 
suchsweise ein Intervall anzugeben, in welches der wahre Größenwert 
hineinfällt. Die zwei gegebenen Beispiele stimmen allerdings insofern nicht 
mit der Charakterisierung von 10. a überein, als es sich bei diesen Zahlen- 
werten nicht um Parameter von Verteilungen handelt. Erst im Rahmen der 
statistischen Fehlertheorie, in der man Messungen als Zufallsexperimente 
einer bestimmten Art deutet, werden die beiden Antworten als Schätzun- 
gen im statistischen Sinn aufgefaßt. Im übrigen aber beschränken sich Sta- 
tistiker auf solche Dinge wie : Schätzungen der wahren durchschnittlichen 
Lebensdauer einer Art von Rundfunkröhren; Schätzung des Intervalls, in 
welches der wahre durchschnittliche I. Q. des Studierenden an einer deut- 
schen Hochschule hineinfällt. Häufige Objekte von Schätzungen sind der 
Parameter $ einer Verteilung (z. B. der Parameter der Binomialverteilung 
oder der Exponentialverteilung), ferner die Parameter [i (Mittel) und a 2 
(Varianz). 

Schätzungen beiden Typs können gut und schlecht sein. Was ist das 
Kriterium für die Güte einer Schätzung ? Die Frage ist mehrdeutig. Zweck- 
mäßigerweise wenden wir uns ihrer Beantwortung erst zu, nachdem wir 
zuvor einige technische Begriffe eingeführt haben. 

lO.c Einige spezielle Begriffe der statistischen Schätzungstheorie. 

Dieser Unterabschnitt hat rein referierenden Charakter 72 . Wir müssen zunächst 
etwas weiter ausholen und an die Art und Weise der technischen Behandlung von 
Stichproben in der mathematischen Statistik erinnern ; denn statistische Schätzungen 
stützen sich stets auf numerische Resultate, die man für Stichproben gewonnen hat. 

Gegeben sei eine Grundgesamtheit (Population), ein Ereigniskörper 
über dieser Grundgesamtheit und ein für diesen Ereigniskörper definiertes 
Wahrscheinlichkeitsmaß. Aus der Grundgesamtheit kann man Stichproben 
auswählen. Die Statistiker unterscheiden zwischen Stichprobenauswahlen 
aus unendlichen Populationen und Stichprobenauswahlen aus endlichen 
Populationen. Da diese Bezeichnungen etwas irreführend sind, sei sogleich 
bemerkt, daß eine Stichprobenauswahl aus einer unendlichen Population 
dasselbe ist wie eine Stichprobenauswahl mit Ersetzung, dagegen eine 
Stichprobenauswahl aus einer endlichen Population dasselbe wie eine 
Stichprobenauswahl ohne Ersetzung. Wenn ich z. B. aus einem 52 Karten 
umfassenden Kartenspiel eine Karte ziehe, weglege, eine nächste ziehe usw., 
so liegt eine Stichprobenauswahl ohne Ersetzung (Stichprobenauswahl aus einer 
endlichen Gesamtheit) vor: Die Stichprobe kann maximal 52 Elemente ent- 
halten. Allgemein: Ist die Grundgesamtheit endlich und enthält sie N 

72 Er kann daher von allen Lesern, die mit den hier eingeführten Begriffen 
bereits vertraut sind, übersprungen werden. Für ein Verständnis des größten 
Teiles der folgenden Unterabschnitte sind die schwierigeren unter den hier einge- 
führten technischen Einzelheiten nicht erforderlich. Die kritische Diskussion be- 
ginnt erst in 10. d., S. 191. 
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Elemente, so kann eine Stichprobenauswahl ohne Ersetzung nur zu Stich- 
proben führen, die nicht mehr als N Elemente umfassen. Angenommen 
hingegen, es liege eine Folge von Zügen aus dem Kartenspiel vor, wobei 
man das Ergebnis eines jeden Zuges aufnotiert, die Karte aber jedesmal 
zurückgegeben und das Spiel gut gemischt wird, bevor der neue Zug ge- 
macht wird. Dann haben wir es mit einer Stichprobenauswahl mit Ersetzung 
zu tun. Die Tatsache, daß das Spiel 52 Karten umfaßt, darf also nicht dar- 
über hinwegtäuschen, daß nach statistischer Terminologie hier eine Stich- 
probenauswahl aus einer unendlichen Gesamtheit vorliegt. Eine n Elemente ent- 
haltende Stichprobe nennen wir auch gelegentlich eine n-Stichprobe oder 
eine Stichprobe vom Umfang n. 

Zwecks größerer Übersichtlichkeit führen wir für die nun zu schildernden 
einzelnen Begriffsfamilien römische Nummern ein. 

(I) Für das Folgende nehmen wir an, daß die Resultate der Stichproben- 
auswahl in quantitativer Sprache vorliegen, daß es sich also um Meßergeb- 
nisse handelt. (Die Übersetzung in die quantitative Sprechweise kann natür- 
lich immer erfolgen.) Ferner beschränken wir uns zunächst auf den Fall der 
Stichprobenauswahl mit Ersetzung. Es mögen etwa n Meßresultate x x , . . . , x n 
vorliegen. Diese Meßresultate werden als Funktionswerte von n Zufallsfunktionen 
£ 1 , • • *, Tn über dem Stichprobenraum interpretiert . Daß eine zufällige Stichprobe 
vorliegt, besagt, daß diese Zufallsfunktionen erstens unabhängig sind und 
zweitens dieselbe Verteilung haben. Es muß also gelten: /(x l5 . . . , x n ) = 
/(* i) X /(x 2 ) X ••• X /(x n ), wenn die rechte einstellige Wahrscheinlich- 
keitsverteilung bzw. -dichte die für alle n Zufallsfunktionen geltende Wahr- 
scheinlichkeitsverteilung (bzw. -dichte) ist. Die Art der Verteilung wird 
gewöhnlich der Grundgesamtheit zugeschrieben. So etwa spricht man von 
einer Exponentialpopulation, einer Normalpopulation usw. 

Nach unserer Terminologie ist dabei folgendes zu beachten: Die Art der Ver- 
teilung wird in einer statistischen Oberhypothese festgehalten, die wir in das statisti- 
sche Datum einbeziehen. Mit der Wahl des Parameters (bzw. der Parameter, wenn 
es mehrere gibt) ist die spezielle statistische Hypothese fixiert. Daß es sich tatsächlich 
um eine zufällige Stichprobe handelt, ist natürlich eine weitere Hypothese . Es werden 
also insgesamt an drei Stellen hypothetische Annahmen gemacht. Der Begriff des 
statistischen Datums ist dabei von uns so weit gefaßt worden, daß man darunter 
auch eine Aussage von der Gestalt verstehen darf: „Die Verteilung ist entweder 
eine Exponentialverteilung oder eine Normalverteilung“. Die spezielle statistische 
Hypothese kann dann besagen, daß eine Normal Verteilung mit den bestimmten 
Parametern p und o 2 vorliege. 

Beispiel . Die Population bestehe aus einer Art von Fernsehröhren. Man 
mißt die Lebenszeiten von 14 dieser Röhren. Diese 14 Meßwerte x 1 , . . . , x u 
werden als Werte von 14 Funktionen JC 1? . . .,JC 14 angesehen. Die in das 
Datum einbezogene Oberhypothese laute etwa: „Bei den Fernsehröhren 
von dieser Art handelt es sich um eine Exponentialpopulation“. Die speziel- 
le statistische Hypothese ist fixiert, wenn der Parameter der Exponential- 




180 



Die logischen Grundlagen des statistischen Schließens 



Verteilung angegeben wurde; dies sei etwa der Wert 500. Damit ist zugleich 
die für alle 14 Zufallsfmktionen geltende Wahrscheinlichkeitsdichte bekannt . Sie 
lautet nämlich: 

/ \ ,/ x 1 “(söö) 

( a ) /(•*)- 500 ' e 

Das Ergebnis dieser etwas umständlichen Beschreibung könnte in knap- 
per Form folgendermaßen wiedergegeben werden: „Die 14 Meßwerte 
x 1 , . . . , x 14 bilden eine zufällige Stichprobe aus einer Exponentialpopulation 
mit der Verteilung (a)“ lz . 

Bei einer anderen Grundgesamtheit kann bereits die in das Datum ein- 
bezogene Oberhypothese eine andere sein, obzwar die Meßwerte auch dies- 
mal die Lebenszeiten von technischen Geräten einer bestimmten Art be- 
treffen. Wenn die Stichprobe etwa 7 Elemente enthält, so könnte die analoge 
Information diesmal lauten : 

„Die 7 Meßwerte j l5 . . .,j 7 bilden eine zufällige Stichprobe aus einer 
Normalpopulation mit dem Mittel pt, = 80 und der Varianz or 2 = 400“. 

Zusammen mit der Information, daß es sich um eine Normalpopulation 
handele, genügen die beiden Parameterangaben; denn daraus kann die Ver- 
teilung sofort erschlossen werden, die diesmal lautet: 

1 (x-80) 2 

(b) g{y) = N{y^m = -^=-e ^ 400 . 

Dies ist also die Verteilung, welche diesmal für 7 Zufallsfunktionen 

9x, • • •» V? 

In beiden Fällen handelt es sich um unendliche Grundgesamtheiten ! 

Bei der statistischen Beschreibung von Zufallsstichproben bleibt zunächst die 
Frage vollkommen offen, wo%u die Stichproben benützt werden. Das erste obige Bei- 
spiel legt den Gedanken nahe, daß die Stichprobe, bestehend aus 14 Zahlenwerten, 
dazu benützt werden soll, die wahre durchschnittliche Lebensdauer der Röhren dieses Typs 
%u schätzen, indem man aus diesen Zahlwerten den Durchschnitt bildet. Dies ist 
tatsächlich eine mögliche Verwendung, auf die wir noch zurückkommen werden. 
Die Dinge können aber selbst im Schätzungsfall wesentlich komplizierter liegen. 
Zur Verdeutlichung diene vorläufig das folgende Beispiel: Man muß auf Re- 
gierungsebene eine Entscheidung darüber fällen, ob eine bestimmte Region R des 
Staates als unterentwickelt zu betrachten sei und deshalb ökonomisch zu fördern ist. 
Dazu soll der Vergleich des durchschnittlichen nationalen Familieneinkommens E 0 
mit dem durchschnittlichen Familieneinkommen E x in R dienen. Die fragliche Ent- 
scheidung wird davon abhängig gemacht, ob der erste Wert den zweiten mindestens 
um einen Betrag k übersteigt. Nun kenne man zwar den Wert E 0 für den gesamten 
Staat (entweder aufgrund einer genauen Erhebung oder aufgrund einer früheren 
Schätzung; wie der Wert E 0 gewonnen wurde, ist hier ohne Belang). E 1 sei un- 

78 Bei diesen Kurzbeschreibungen wird im stetigen Fall unter Verteilung stets 
die Dichtefunktion verstanden. Dies nochmals zu betonen, dürfte deshalb nicht 
ohne Nutzen sein, weil ja die Dichtefunktion zum Unterschied von einer diskreten 
Wahrscheinlichkeitsverteilung keine Wahrscheinlichkeit ist. 
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bekannt. Man wählt in R eine für repräsentativ gehaltene Stichprobe von 60 Fa- 
milien, ermittelt deren Einkommen und verwendet den Durchschnitt, um E x zu 
schätzen; der Schätzwert sei Ef . Falls E 0 — Ef > k, werden die wirtschaftlichen 
Förderungsmaßnahmen in die Wege geleitet; sonst nicht. 

Für die weitere mathematische Behandlung von Stichprobenresultaten 
ist das Folgende von Bedeutung : Mit n Zufallsfunktionen ft , . . . , ft ist 
auch jede lineare Kombination davon eine Zufallsfunktion, d. h. jede Funktion 

n 

3 von der Gestalt: 3 = 2J a iXi (die a f sind konstante reelle Zahlen). Kennt 
/ = l 

man die Verteilung der ft, so kann daraus die von 3 berechnet und es kön- 
nen deren Eigenschaften studiert werden. 

Uns interessiert im Augenblick nur der Fall, daß die ft voneinander 
unabhängig sind und alle dieselbe Verteilung haben. Dann wird eine spe- 
zielle lineare Kombination dieser ft durch die Wahl von a i = 1 \n gewonnen. 
Die neue Zufallsfunktion hat die folgende Gestalt: 



(i) 



— ft + ft + • • • + Xi 
?= 



Diese Funktion ist natürlich so zu verstehen : Wenn ft den Wert x x , . . . , 

y x 

ft den Wert x n annimmt, so nimmt f den Wert x = — 1 1 - an. 

Gehen wir nun wieder auf das erste obige Beispiel einer Exponential- 
population und einer zufälligen Stichprobe aus dieser Population mit den 
14 Werten x 19 . . . , x 14 zurück. Der Wert von je ist in diesem Fall: 



( 2 ) 



_ *1 + X 2 + . . . + *li 

14 



also das, was man gewöhnlich als den Durchschnitt aus diesen 14 Werten 
bezeichnet. Vom formalen Standpunkt aus ist es wichtig, zu beachten, 
daß der Durchschnitt einen Wert der Zufallsfunktion (1) darstellt (in 
unserem Beispiel für n = 14). Man muß genau darauf achten, ob unter 
„Durchschnitt“ ein Zahlenwert von der Art (2) oder eine Funktion von der 
Art (1) verstanden werden soll. 

Für je gilt der häufig verwendete 

Satz 10 — 1 Es seien ft, ft, . • • , Xn Zufallsfunktionen , von denen gilt: 

1 . die n ft sind voneinander unabhängig ; 

2 . die n ft haben alle dieselbe Verteilung mit dem Mittel 
/jl und der Varianz < r 2 . 

Dann sind das Mittel ( der Erwartungswert) und die Var i an ^ 
von f durch die Formeln bestimmt: 

(a) E(x) = ^ 



(b) Var(j) = ^. 



74 Vgl. Freund, [Statistics], S. 176. 
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Die Quadratwurzel von Var(jc), also 
Durchschnitts bezeichnet. 




wird auch als Standardfehler des 



Nehmen wir jetzt an, in unserem ersten Beispiel sei der Wert x von (2) 
tatsächlich dazu verwendet worden, um die durchschnittliche Lebensdauer 
der Röhren dieses Typs zu schätzen, d. h. x sei der Schätzwert von (i. Hier 
tritt sofort die Frage auf, ob man eine Aussage über das Verhältnis von 
Schätzwert x und geschätztem Wert /jl machen kann, falls der Umfang n der 
Stichprobe wächst. Darauf gibt die Formel (b) eine Antwort: Mit wachsendem 
n wird der Standardfehler immer kleiner, so daß man erwarten kann, daß 
mit der durch die Vergrößerung der Anzahl der Elemente der ^-Stichprobe 
wachsenden Information der Schätzwert x der zu schätzenden Größe fi 
immer näher kommt. Genauer kann man aus dem obigen Satz unter Ver- 
wendung des Theorems von Tschebyscheff die folgende Aussage ableiten: 



Korollar. Es sei k eine beliebige positive Konstante . Dann konvergiert mit 
n-> oo die Wahrscheinlichkeit , daß je einen von fi um mehr als k 

abweichenden Wert annimmt, gegen 0 (denn nach dem Theorem 



von Tschebyscheff ist die Wahrscheinlichkeit, daß der 
durch die Funktion x angenommene Wert von fi um mehr 

a 2 \ 

als k abweicht, kleiner als — ^ I . 



In der Wahrscheinlichkeitstheorie wird der Ausdruck „Statistik“ 
häufig in einem ganz speziellen Sinn verstanden, nämlich im Sinn von 

„Wert, der von einer Zufallsfunktion angenommen wird“. So ist z. eine 

Statistik; denn dieser Wert wird von der Zufallsfunktion je in (1) am Punkt 
x n ) des ^-dimensionalen Stichprobenraumes angenommen. 

Ein anderes wichtiges Beispiel einer Statistik ist die Stichprobenvarianz • 
Diese ist bei gegebenen Stichprobenresultaten x l9 . . ., x n der Wert, der am 
Punkt (x ly ...,x n ) des Stichprobenraumes von der folgenden Zufalls- 
funktion 5 2 angenommen wird: 

.£ (*,-x) a 



6, die Quadratwurzel daraus, wird Standardabweichung der Stichprobe genannt. 
(Die auf den ersten Blick etwas merkwürdige Tatsache, daß im Nenner der 
Wert n— 1 und nicht n steht, hat rein rechnerische Gründe, auf die wir noch- 
mals zurückkommen werden.) 

Verteilungen von Zufallsfunktionen, die Statistiken entsprechen, heißen 
auch Stichprobenverteilungen. So jedenfalls wird der Ausdruck gewöhnlich de- 
finiert. Sieht man sich aber die obige, sehr allgemein gehaltene Definition 
von „Statistik“ an, so würde daraus folgen, daß man jede Verteilung einer 
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Zufallsfunktion Stichprobenverteilung nennen dürfte. Dies erscheint nicht 
als sinnvoll. Tatsächlich denken die Statistiker gewöhnlich an Verteilungen 
der Funktionen je und 8 a (sowie verwandter Funktionen), wenn sie von 
Stichprobenverteilungen sprechen. Wir werden jedenfalls diese Terminolo- 
gie nur mit Bezug auf die beiden genannten Funktionen verwenden. 

Ein häufig benütztes Theorem über Stichprobenverteilungen sei hier 
angeführt (der Ausdruck „Durchschnitt“ ist dabei genau im Sinn der obi- 
gen Formel (2) zu verstehen) : 

Satz 10 — 2. Es sei eine Normalpopulation mit der Verteilung Nix ; / 1 , er 2 ) 
sowie eine zufällige n-Stichprobe aus dieser Population mit dem 
Durchschnitt x gegeben . Dann ist die Stichprobenverteilung der 

_ / \ 75 

Zufallsfunktion j die Normalverteilung N Ix; fj , , — ) . 

(D) Bisher haben wir uns ausschließlich mit Stichprobenauswahlen aus 
unendlichen Gesamtheiten beschäftigt. Die folgenden Bemerkungen be- 
ziehen sich auf Stichprobenauswahlen ohne Ersetzung. 

Ein anschauliches Modell für diese Art von Stichprobenauswahl bildet 
das Ziehen von Karten aus einem normalen Kartenspiel mit 52 Karten, 
ohne daß die jeweils gezogene Karte in das Spiel zurückgelegt wird. Wie 
wir von Kap. 0 her wissen, muß in diesem Fall für die Berechnung der 
Wahrscheinlichkeiten (z. B. der Wahrscheinlichkeit, in 7 aufeinanderfol- 
genden Zügen ohne Ersetzung 3 Damen zu ziehen) die hypergeometrische 
Verteilung benützt werden. 

Wie sieht nun die Behandlung von Stichprobenauswahlen ohne Er- 
setzung (= Stichprobenauswahlen aus endlichen Gesamtheiten) in der 
Sprache der Zufallsfunktionen aus ? Nehmen wir dazu der Einfachheit halber 
an, die gegebene endliche Grundgesamtheit sei eine Klasse K = {r l5 
r 2 , . . r^v} von irgendwelchen reellen Zahlen r t . (Sollten zwei Zahlen identisch 
sein, so erteilen wir ihnen einfach verschiedene Indizes, um sie einerseits 
unterscheiden zu können, andererseits doch von einer Klasse sprechen zu 
dürfen.) 

Angenommen, wir wollen aus der N Zahlen enthaltenden Grundge- 
samtheit eine Stichprobe von n Zahlen auswählen. Die Resultate der n 
Wahlen werden wieder als Werte von n Zufallsfunktionen % ly . . ., % n ge- 
deutet. Da diesmal aber Auswahlen ohne Ersetzung erfolgen und daher die 
Wahrscheinlichkeiten sich von einer Wahl zur nächsten ändern, müssen wir 
auf die Reihenfolge achten und die Zufallsfunktionen, die diesmal nicht unab- 
hängig sind , entsprechend dieser Reihenfolge charakterisieren. So etwa sei 
die Bedeutung von „die erste aus der Klasse K gewählte Zahl“, die Be- 
deutung von jc 2 : „die zweite aus der Klasse K gewählte Zahl“, . . ., die Be- 
deutung von j : n : „die n-te aus der Klasse K gewählte Zahl“. 

75 Vgl. Freund, a. a. O. S. 191. 
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Zum Unterschied von dem in (I) behandelten Fall haben diese Funk- 
tionen nicht dieselbe Verteilung. Der Begriff der zufälligen Stichprobe wird 
daher diesmal nicht durch Bezugnahme auf die individuellen Verteilungen, 
sondern durch Bezugnahme auf die gemeinsame Verteilung f der n Zufalls- 
funktionen definiert (die Stichprobe schreiben wir als geordnetes »-Tupel, 
um die Reihenfolge hervorzuheben) : (x x , . . . , xf) heißt zufällige Stich- 
probe vom Umfang n aus der endlichen Grundgesamtheit K vom Umfang N 
gdw alle Xi$K und 

/(*i> • • •>•*•„)= + ' 

Die zufälligen Stichproben vom Umfang n sind also in ihrer Gesamtheit 
dadurch charakterisiert, daß jedes geordnete n- Tupel von Zahlen aus K, also 
jedes Element des (»-dimensionalen) Stichprobenraumes, dieselbe eben 
angegebene Wahrscheinlichkeit haben muß. 

Die Marginalverteilungen /(?*•) sind für alle n Zufallsfunktionen die- 
selben, nämlich: 

1 

/(*<) = 7v ( für alle x i € K )- 

Für die Erwartungswerte der Xi erhält man daher : 

N r . 

E (Xi) = 2J tV = P 5 unc ^ für die Varianz : 

Var( ?i )= 

Diese beiden Größen sind also für alle dieselben und von der Größe n 
der Stichprobe unabhängig. Man ordnet diese beiden Zahlen daher der end- 
lichen Grundgesamtheit K selbst zu und spricht von dem Mittel und der 
Varianv^ der endlichen Population . Es gilt der folgende 

Satz 10 — 3. Eine zufällige Stichprobe vom Umfang n, die durch Auswahl aus 
einer endlichen Population vom Umfang N mit dem Mittel fi und 
der Varian % a 2 zustande kam , habe den Durchschnitt x. Dann 
gilt: 

(a) = 

a % N—n 

(b) Var(x) = — ■ N _ 1 . 

Vergleicht man die Teile ( b ) von Satz 1 und Satz 3, so ergibt sich ein gelegent- 
lich verwertbares praktisches Resultat: Die beiden Formeln für die Varianz unter- 

N—n 

scheiden sich nur durch den Faktor ^ . Ist der Umfang N der Population im 

Vergleich zum Umfang n der Stichprobe sehr groß, so kann dieser Faktor und da- 
mit der Unterschied zwischen den beiden Formeln vernachläßigt werden. Der 

Wert — j=r wird daher häufig als approximativer Wert für die Standardabweichung 

1 In 
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von y. für Stichproben aus endlichen Gesamtheiten verwendet, sofern die letzteren 
hinreichend groß sind. 

(HI) Jetzt wenden wir uns wieder dem speziellen Fall der Schätzung 
zu. Es wird dabei sofort deutlich werden, warum wir in (I) und (II) Be- 
merkungen über den Zusammenhang von Stichproben und Zufallsfunk- 
tionen vorangestellt haben. Die Statistiker arbeiten nämlich mit sog. 
S chätzfunktionen (estimators). Dies sind Zufallsfunktionen von der Art der 
in (I) eingeführten Funktionen je und 6 2 , deren Werte Statistiken bilden. 
Die tatsächlich erhaltenen Werte dieser Funktionen werden Schätzwerte 
genannt. Da die Werte von Schätzfunktionen eindeutig bestimmt sind, kann 
mit solchen Funktionen nur innerhalb der Theorie der Punktschätzung 
gearbeitet werden. 

Wenn eine Funktion als Schätzfunktion bezeichnet wird, so ist dies eine 
unvollständige Kennzeichnung. Man muß den Parameter ausdrücklich an- 
geben, für den die Funktion als Schätzfunktion verwendet wird. So etwa 
dient je als Schätzfunktion für ju ; analog wird der erhaltene Wert, etwa 
x = 27,4, als Schätzwert von fx bezeichnet. 

Für die weiteren Betrachtungen genügt es, wenn der Leser sich folgen- 
des merkt: Schätzfunktionen sind definiert auf der Menge der möglichen 
Beobachtungen und haben als Werte reelle Zahlen; der Wert einer derarti- 
gen Funktion für eine bestimmte Beobachtung ist ein Schätzwert. 

Das Arbeiten mit Schätzfunktionen hat wichtige theoretische Konse- 
quenzen. Die wichtigste dürfte darin liegen, daß die Identifizierung dieser 
Funktionen mit gewissen Zufallsfunktionen das Studium der statistischen 
Merkmale dieser Zufallsfunktionen zu einer der Hauptaufgaben, wenn nicht 
zu der Hauptaufgabe der Theorie der Punktschätzung gemacht hat. 

Wir werden diese Denkweise nicht kritiklos hinnehmen, sondern in 
einem späteren Unterabschnitt deren Problematik aufzuzeichnen versuchen. 
Zuvor aber sollen einige Begriffe eingeführt werden, durch die man Schätz- 
funktionen näher charakterisiert. 

(IV) Man kann mit vielen verschiedenen Schätzfunktionen arbeiten, um 
zu Schätzungen zu gelangen. Nicht alle Schätzungen aber sind gleich gut 
brauchbar. Man wird daher in jedem Fall zunächst zu ermitteln versuchen, 
welche Schätzfunktion die geeignetste sein dürfte. Um für dieses Er- 
mittlungsverfahren eine rationale Basis zur Verfügung zu stellen, haben die 
Statistiker eine Reihe von wünschenswerten Eigenschaften von Schätzfunktionen 
definiert, von denen die vier wichtigsten hier angeführt werden sollen. 

(a) Angenommen, wir haben es mit einer unendlichen Population zu 
tun. Der Wert der Schätzfunktion kann als das Ergebnis einer Folge von 
Experimenten beschrieben werden, durch welches wir eine Stichprobe er- 
zeugen, die uns den Schätzwert liefert. Es ist naheliegend, folgendes zu ver- 
langen: Wenn wir das Experiment immer und immer wiederholen, so soll 
im Durchschnitt der Parameterwert herauskommen, den wir schätzen. In die 
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technische Sprechweise der Statistik übersetzt, besagt diese erste wün- 
schenswerte Eigenschaft: 

Der Erwartungswert der Schätzfunktion soll mit dem Parameterwert 
identisch sein , für dessen Schätzung sie verwendet wird. 

Eine Schätzfunktion, welche diese Bedingung erfüllt, soll erwartungstreu 
(unbiased) 76 genannt werden. 

Als Beispiel für den stetigen Fall können wir wieder auf den Satz 1 (a) zurück- 
greifen: Die Zufallsfunktion je ist eine erwartungstreue Schätzfunktion von 
falls fi, überhaupt existiert, da unter dieser Voraussetzung gilt: E (je) = fx. Es darf 
allerdings nicht übersehen werden, daß dort eine weitere Voraussetzung gemacht 
worden ist, nämlich daß alle ? { dieselbe Verteilung haben. Woher weiß man dies ? 
Die Antwort liegt auf der Hand: Man weiß es natürlich nicht, sondern kann es nur 
vermuten. Daß das Auswahlverfahren zu einer zufälligen Stichprobe geführt hat, 
ist eben in jeder Situation selbst eine statistische Hypothese! 

Ein einfaches Beispiel für den diskreten Fall ist folgendes: Gegeben sei eine 
Binomialpopulation. Der Parameter der Binomialverteilung sei #. Wenn die Zu- 
fallsfunktion £ die Bedeutung hat: „die Anzahl der Erfolge in n Versuchen“, so 

ist die Funktion — eine erwartungstreue Schätzfunktion für den Parameter 

dieser Verteilung. Denn es gilt: E E (x) = 

Als letztes Beispiel sei die in (3) definierte Stichprobenvarianz 8 2 genannt. 
Diese bildet eine erwartungstreue Schätzfunktion für die Varianz a 2 einer un- 
endlichen Grundgesamtheit. Denn es gilt nachweislich: E(s 2 ) — o 2 . 17 Wenn wir 
also eine zufällige Stichprobe aus einer unendlichen Population auswählen, so kön- 
nen wir den nach Formel (3) gewonnenen Wert als Schätzwert von o 2 verwenden. 
Wir haben dabei die Garantie, daß es sich um ein erwartungstreues Schätzverfahren 
handelt. Dieses Resultat liefert die nachträgliche Motivation für die auf den ersten 
Blick befremdliche Tatsache, daß in der Formel (3) von (I) im Nenner der Wert 
n— 1 und nicht n steht, obwohl sich die Formel auf eine Stichprobe vom Umfang 
n bezieht. 

(b) Ein weiteres Merkmal ist die relative Effizienz* Dieses wird nur 
für den Fall angewendet, daß mehrere Schätzfunktionen vorliegen, die alle 
erwartungstreu sind, so daß eine Auszeichnung einer von ihnen erst auf- 
grund eines weiteren Kriteriums erfolgen kann. Von zwei erwartungstreuen 
Schätzfunktionen und 0 2 wird die erste als relativ effizienter denn die zweite 
bezeichnet, wenn 

Var(d i) 

Var (fl 

Eine kleinere Varianz gilt somit als Symptom größerer Effizienz denn eine 
größere Varianz. Wenn wir an einen der wichtigsten Fälle, nämlich die 
Normalverteilung, denken und dabei zugleich auf die geometrische Ver- 
anschaulichung von Wahrscheinlichkeitsdichten und Wahrscheinlichkeiten 

76 Dem Vorschlag von Van der Waerden, dafür den doppelsprachigen Aus- 
druck „biasfrei“ einzuführen, vermag ich mich nicht anzuschließen. 

77 Für einen einfachen Beweis vgl. J. E. Freund, [Statistics], S. 216. 
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zurückgehen, so können wir sagen: Größere Effizienz bedeutet kleinere 
Varianz, d. h. stärkere Konzentration der Fläche unter der Wahrscheinlichkeits- 
verteilung {-dichte) um das Mittel 

Ein Beispiel für die Anwendung dieses Kriteriums liegt z. B. in der folgenden 
Situation vor: Gegeben ist eine Normalpopulation; deren Mittel soll aufgrund 
einer zufälligen Stichprobe geschätzt werden. Man kann zeigen, daß sowohl % 
als auch je (der Median 78 , aufgefaßt als Zufallsfunktion) erwartungstreue Schätz- 
er 8 71 

funktionen darstellen. Da jedoch gilt: Var (je) = — und Var(jc) = — ^ -■ , ist 
je von größerer relativer Effizienz als je (denn n > 2). 

Angenommen, es werde ein Vergleich zwischen einer erwartungstreuen 
Schätzfunktion 0 für einen Parameter & auf der einen Seite, und sämtlichen 
übrigen erwartungstreuen Schätzfunktionen für # auf der anderen Seite ange- 
stellt. Der Vergleich ergebe, daß die Varianz von 0 mindestens ebenso 
niedrig ist wie die für eine dieser übrigen Schätzfunktionen. Es wird dann 
gesagt, daß 0 von größter relativer Effizienz ist. Da dieses Kriterium die 
Schätzfunktionen mit niedrigster Varianz auszeichnet, könnte man es da- 
her auch das Kriterium der minimalen Varianz nennen. 

(c) Erwartungstreue ist nicht die einzige für wünschenswert gehaltene 
Eigenschaft von Schätzfunktionen. Der Nachteil fehlender Erwartungs- 
treue kann u. U. durch andere Vorteile überkompensiert werden. Dazu 
müssen wir bedenken, daß die Erwartungstreue im Grunde eine ziemlich 
schwache Eigenschaft einer Schätzfunktion ist: Sie beinhaltet ja lediglich, 
daß die Werte der Schätzfunktion im Durchschnitt dem geschätzten Para- 
meterwert gleichen. Dies besagt aber nicht , daß auch nur ein einziger der gewon- 
nenen Werte dem geschätzten Wert notwendig sehr nahe kommt . Vielmehr ist es 
durchaus damit verträglich, daß die einzelnen gewonnenen Werte vom ge- 
schätzten Wert stark abweichen. 

Es ist daher beinahe zwingend, einen weiteren Gedanken zur Forderung 
zu erheben : Wir wollen eine Art von praktischer Gewißheit , daß für ein hin- 
reichend großes n (für eine hinreichend große Stichprobe) die Schätz- 
funktion Werte annimmt, welche dem zu schätzenden Parameter sehr nahe- 
kommen. Dieser Gedanke ist für uns nicht neu ; er kam bereits im Theorem 
von Tschebyscheff sowie im Gesetz der großen Zahl zur Geltung. 

Eine Schätzfunktion 0, die zur Schätzung des Parameters # ver- 
wendet wird, und welche diese noch zu präzisierende Bedingung erfüllt, 
wird konsistent genannt 79 . Genauer lautet die Konsistenzbedingung für 0 
(wobei unter {i w der tatsächliche oder wahre Wert des Parameters ver- 
standen wird) : 

78 Wenn v l9 . . ., v n die nach Größe geordneten Werte der Stichprobe sind, 
so ist der Median im Fall n — 2m + 1 der Wert */ m+1 , im Fall n = 2 m der Wert 
Vm + ?m+l 

2 

79 Mit dem logischen Konsistenzbegriff hat diese Bezeichnung nichts zu tun. 
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Die Wahrscheinlichkeit , daß 0 einen Wert annimmt > welcher von um 
mehr als eine beliebige vorgegebene Konstante k abweicht , konvergiert für 
n —> oo gegen 0. 

(Der Leser übersehe nicht, daß hier nicht von einer Konvergenz des 
Schätzwertes gegen den tatsächlichen Wert die Rede ist, sondern davon, 
daß die Wahrscheinlichkeit des beschriebenen Sachverhaltes gegen 0 kon- 
vergiert.) 

Da im Definiens von einem Grenzwert die Rede ist, können wir die 
Konsistenz auch eine Limeseigenschaft (oder asymptotische Eigenschaft ) einer 
Schätzfunktion nennen. 

Versteht man unter dem Fehler einer Schätzung den absoluten Betrag der 
Differenz zwischen dem durch die Schätzfunktion angenommenen Wert 
und dem wahren Wert des geschätzten Parameters, so kann das Merkmal 
der Konsistenz einer Schätzfunktion umgangssprachlich ungefähr so 
wiedergegeben werden : Wenn n hinreichend groß ist , so können wir praktisch 
sicher sein , daß der Fehler , welchem die konsistente Schät^Junktion führt , kleiner 

ist als ein beliebig vorgegebener konstanter Wert . Der formale Begriff der Wahr- 
scheinlichkeitskonvergenz wird hier durch den Alltagsbegriff der prakti- 
schen Sicherheit wiedergegeben. 

Ein partieller Zusammenhang zwischen Erwartungstreue und Konsi- 
stenz ist ausgedrückt in dem folgenden 

Satz 10 — 4. Eine erwartungstreue Schät^funktion 0 ist konsistent , wenn sie 
außerdem die Bedingung erfüllt : Var (0) konvergiert für 
n -> oo gegen 0. 

Dieser Satz wird häufig benützt, um die Konsistenz von Schätzfunk- 
tionen zu beweisen. Es möge nicht übersehen werden, daß es sich dabei nur 
um eine hinreichende, aber nicht um eine notwendige Bedingung der 
Konsistenz handelt. 

(d) Schließlich wird eine Schätzfunktion erschöpfend (sufficient) ge- 
nannt, falls sie sämtliche in der Stichprobe enthaltenen Informationen ver- 
wertet, die für die Schätzung des Parameters # relevant sind. Wenn also 
eine erschöpfende Schätzfunktion 0 einen Wert liefert und außerdem eine 
Stichprobe mit Zahlwerten x l9 . . . x n vorliegt (welche die Werte der 
Zufallsfunktionen } l9 . . ., darstellen), so dürfen diese n Stichproben- 
werte keine über den Wert von 0 hinausgehende Information über den 
geschätzten Parameter # liefern. 

Eine mögliche formale Präzisierung dieses Begriffs lautet: Es sei f(x l9 . . .,x Ä | 
#*) die bedingte gemeinsame Verteilung von % l9 . . ., £ w , 0, wobei die Bedingung 
lautet, daß 0 den Wert annimmt. 0 wird eine erschöpfende Schätzfunktion für 
# genannt, wenn der Wert von /(x 1} . . ., x n | #*) nicht vom tatsächlichen Wert 
von # abhängt. 

(V) Die in (TV) angeführten Begriffe betrafen wünschenswerte Eigen- 
schaften von Schätzfunktionen. Da die letzteren nur ein Werkzeug für die 
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Theorie der Punktschätzung bilden, sind alle diese Begriffe für die Theorie 
der Intervallschätzung ohne Relevanz. 

Der wichtigste Begriff der Intern allschät^ung ist der Begriff des Vertrauens- 
intervalls (confidence interval). Er möge zunächst an einem Beispiel illu- 
striert werden. Es liege eine Normalpopulation mit dem Mittel fx und der 
Varianz <y 2 vor. er sei bekannt, /x hingegen unbekannt . Es wird eine zufällige n- 
Stichprobe aus dieser Grundgesamtheit ausgewählt. Die Zufallsfunktion je 
habe dieselbe Bedeutung wie früher. Wir erinnern daran, daß man allge- 
mein die Standardisierung einer Zufallsfunktion y durch Übergang zur Zu- 
fallsfunktion t) = — erhält, wenn [x und er 2 Mittel sowie Varianz der Ver- 

teilung von y sind; die Zufallsfunktion in Standardform hat das Mittel 0 und 
die Varianz 1. Unter % p / 2 verstehen wir denjenigen Wert, für den das Integral 
der Standardnormaldichte von % p f 2 bis oo den Wert p\2 liefert, d. h. 



f N(x; 0,1) = |-. 

Zpl 2 



(Zur Erleichterung des Verständnisses möge der Leser annehmen, daß p\ 2 
eine sehr kleine Zahl sei.) 



Wenn wir auf Satz 10.2 zurückgreifen, können wir behaupten, daß die 

Stichprobenverteilung von ^ — nämlich die Standardisierung von je — 

die Normalverteilung N(x ; 0,1) ist. Da die Normalverteilung symmetrisch 
bezüglich des Mittels ist, welches im standardisierten Fall den Wert 0 hat, 
können wir nach dem vorigen Resultat behaupten: 



(4) Die Wahrscheinlichkeit , daß die Zufallsfunktion 
% wischen — % p / 2 und +^/ 2 annimmt , beträgt 1 —p. 



G-ß) 

a\ßn 



einen 



Wert 



Angenommen, wir setzen den tatsächlich aus der Stichprobe gewonnenen 
Wert x ein und schreiben die Ungleichung an : 



Zv/2< alf < + Zpl2 ' 

Diese kann man umformen in : 



(5) *— fc/a -j j=r < [x < x+ z v / 2 y=- • 

Alle Werte außer [i sind hier Konstante: x wurde empirisch ermittelt; 
n ist der Umfang der Stichprobe; a war als bekannt vorausgesetzt; und 
Zv /2 wurde rein rechnerisch durch die obige Integralbedingung ermittelt. 

Selbstverständlich können wir nicht behaupten, daß (5) richtig ist, 
sondern können nur sagen: (5) muß richtig oder falsch sein. Wegen (4) 
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können wir allerdings noch mehr behaupten, nämlich: 



(6) Die Wahrscheinlichkeit , daß die beiden Zufallsfunktionen je — Zvlz 



a 



V* 



und j: + Zvte —]=r Werte annehmen , w/A & doppelte Ungleichung (5) 
\ n 

erfüllen (der Wert der ersten die linke und der Wert der zweiten die 
rechte), beträgt 1 —p. 

Dieses Ergebnis drückt der Statistiker folgendermaßen aus : 



(a) Das Intervall, welches von x • 



-?*/2 ^ bis * + fß läuft > ist 



ein (\—py Vertrauensintervall für /x; 

(b) der Grad des Vertrauens (degree of confidence), daß jx in dem Inter- 
vall (5) liegt, beträgt 1 —p; 

(c) der Wert ganz links in (5) bildet die untere ( \—py Vertrauensgrenze 
(lower confidence limit) für den geschätzten Parameter /x; der Wert 
ganz rechts bildet die obere (1 — p)- Vertrauensgrenze • 

Ein numerisches Beispiel ist folgendes: Die Normalpopulation habe 
die bekannte Varianz er 2 = 144; die Stichprobe habe den Umfang n = 25; 
der Wert von x sei 81 ; p wird 0,05 gesetzt. Aus der statistischen Tabelle für 
Normalverteilungen liest man ab, daß ^ 0#025 = 1,96. Einsetzung in (5) 
ergibt: 76,3 < [x < 85,7. Obwohl diese doppelte Ungleichung falsch sein 
kann, können wir behaupten: Es liegt ein 0,95-Vertrauensintervall vor bzw. 
wir können im Grad 0,95 vertrauen, daß [x in diesem Intervall liegt. Unser 
subjektives Gefühl , daß die beiden Ungleichungen eher richtig als falsch sind , hat da- 
mit eine quantitative Präzisierung erfahren . 

Es ist jedoch Vorsicht am Platz, damit man in die Sache nicht mehr 
hineindeutet als darin liegt. Mit der Einführung der Vertrauensbegriffe wurde 
nicht etwa ein Übergang zu einer Bestätigungstheorie oder einer personali- 
stischen Wahrscheinlichkeitstheorie vollzogen, auch nicht zu einer Stützungs- 
theorie von der früher beschriebenen Art. Alle diese Begriffe basieren vielmehr 
ausschließlich auf dem Begriff der statistischen Wahrscheinlichkeit . Wir wollen die 
Frage hier nicht diskutieren, ob diese Terminologie daher überhaupt 
empfehlenswert sei. Sie hat sich jedenfalls in der Statistik eingebürgert. 

Das Beispiel illustriert zugleich das allgemeine Verfahren : Wenn wir eine 
Intervallschätzung für einen Parameter ß einer gegebenen Population in der 
Weise vornehmen wollen, daß wir (bei vorgegebenem p) zu einem (1 — p)- 
Vertrauensintervall für ß gelangen, so müssen wir eine Stichprobenauswahl 
vornehmen und zwei Zufallsfunktionen 0 L und 0 2 finden, welche die fol- 
genden beiden Bedingungen erfüllen : 

(1) 0 x nimmt immer einen kleineren Wert an als 0 2 ; 

(2) Wir können mit einer Wahrscheinlichkeit von 1 —p behaupten, daß 

die Werte und # 2 , welche sie aufgrund des Stichprobenresultates 
annehmen, die Ungleichung erfüllen : < ß < $ 2 « 
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Die Begriffe Vertrauensintervall , Vertrauensgrenze und Vertrauensgrad 
sind in dem allgemeinen Fall analog zu definieren wie im obigen speziellen 
Fall. 

Das praktische Problem, das hier zu lösen ist, besteht darin, geeignete 
Zufallsfunktionen zu finden, deren Werte sich aufgrund der verfügbaren 
Daten berechnen lassen, deren Verteilung aber nicht von dem (unbekann- 
ten) Parameter abhängt. In unserem Beispiel wurde das Wissen darum be- 
nützt, daß die Funktion pb- die Standardnormalverteilung hat, welche von 

a y« 

fl unabhängig ist. 

In unserem Beispiel hatten wir vorausgesetzt, daß die Varianz der Normal- 
population bekannt ist. Wenn o unbekannt ist, so muß man zu einer neuen Art von 
Verteilung übergehen, die wir hier wegen der damit verbundenen Komplikationen 
nicht erwähnten, nämlich zur sog. Student - Verteilung. In den Analoga zu den obigen 
Formeln tritt dann an die Stelle von a die durch Formel (3) definierte Standardab- 
weichung der Stichprobe 8, so daß eine Zirkularität vermieden wird. Für eine 
klare Schilderung der technischen Einzelheiten vgl. Freund, [Statistics], S. 201 ff. 
und S. 230. 

Eine Frage von ganz anderer Art tritt auf, wenn man es nicht mit einer Nor- 
malverteilung zu tun hat, sondern mit anderen Verteilungen, deren Varianz be- 
kannt ist. Hier entschließt man sich häufig, hinreichend große Stichproben zu ver- 
wenden, so daß sich der zentrale Grenzwertsatz anwenden läßt und das Problem 
abermals auf ein Problem für Normalverteilungen zurückgeführt wird. 

Wiederum ganz anders liegen die Dinge, wenn man ein Vertrauensintervall 
nicht für fi, sondern für o 2 erhalten möchte. Auch hier muß zu einer besonderen 
Art von Verteilung übergegangen werden, die wir nicht erwähnten, nämlich zur 
sog. ff -Verteilung. Vgl. Freund, a.a.O., S. 193 ff. und S. 234 f. 

Ein interessantes Problemgebiet bilden die Schätzungen von Proportionen. Dieses 
Gebiet umfaßt so heterogene Fälle wie die Schätzung der Sterblichkeitsrate bei 
einer bestimmten Art von Krankheit; der Proportion von defekten Schrauben 
einer Tagesproduktion in einer Schraubenfabrik; die — wie man so sagt — Wahr- 
scheinlichkeit, daß ein Auto, welches in einer Straße parkt, unkorrekte Schein- 
werfer hat usw. Alle diese Fälle können als Spezialisierungen der Aufgabe aufge- 
faßt werden, den Parameter einer Binomialverteilung zu schätzen. Ähnlich wie die 
im vorletzten Absatz erwähnten Fälle wird auch diesmal eine Reduktion auf Nor- 
malverteilungen angestrebt. Die Überlegung benützt die Tatsache, daß für großes n die 
Binomialverteilung durch die Normalverteilung approximiert werden kann. 

lO.d Die Doppeldeutigkeit von „Schätzung“ und die Mehrdeutig- 
keit von „Güte einer Schätzung“. Fast alle Statistiker machen die für sie 
mehr oder weniger selbstverständliche Annahme, daß Schätzungen Handlungen 
sind. Da Handlungen praktische Konsequenzen haben, bringen sie den wei- 
teren Gedanken ins Spiel, daß man diese Konsequenzen von Schätzungen 
bewerten müsse. Von da ist es dann nur mehr ein sehr kurzer Schritt zu der 
These, daß man (a) die gesamte Schätzungstheorie oder sogar (ß) Schätzungs- 
theorie plus Testtheorie , ja schließlich (y) die gesamte Statistik der Entscheidungs- 
theorie einverleiben müsse. 
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Nun ist jedoch der Ausdruck „Schätzung“ doppeldeutig. Es ist zwar 
richtig, daß man unter Schätzungen Handlungen bestimmter Art (englisch: 
action) verstehen kann und auch häufig darunter versteht. Auf der anderen 
Seite ist nicht zu übersehen, daß man unter Schätzen die Formung einer be- 
stimmten Art von Überzeugung (englisch: belief) verstehen kann. Wir wollen 
das erste Schätzhandlung, das zweite theoretische Schätzung nennen. Der Unter- 
schied ist deshalb wichtig, weil wir ja von einer Schätzung verlangen, daß 
sie gut sein soll. „Güte einer Schätzung“ kann aber etwas ganz anderes be- 
deuten, je nachdem, ob man unter der Schätzung eine Schätzhandlung oder 
eine theoretische Schätzung versteht. 

Mit der Differenzierung zwischen den beiden Arten der Schätzung wer- 
den wir uns in lO.e genauer befassen. Im Augenblick möge ein bereits 
früher gegebenes Beispiel zur Illustration des Unterschiedes dienen: die 
Schätzung der Stärke einer feindlichen Armee. Als theoretische Schätzung 
wird man diese Schätzung z. B. dann für gut erklären, wenn sie die Zahl der 
Feinde und ihrer Ausrüstung ziemlich genau trifft. Für die Schätzung als 
Schätzhandlung kann sich ein ganz anderes Bild ergeben: Der Befehlshaber 
der eigenen Armee überschätzt die gegnerischen Kräfte etwas und trifft da- 
nach seine Dispositionen. Der feindliche Angriff wird zurückgeschlagen. 
Dies wäre nicht geglückt, wenn die feindliche Armee in bezug auf ihre 
Stärke nicht überschätzt worden wäre. Hier ist die theoretische Über - 
Schätzung die vom praktischen Standpunkt, d. h. vom Standpunkt der 
Sch 'ix.zhandlung, gute Schätzung. 

Leider tritt aber jetzt eine weitere Komplikation auf : Selbst wenn man 
den Begriff der Schätzung im rein theoretischen Sinn versteht, ist die Wen- 
dung „die Schätzung Sowieso ist gut“ nicht eindeutig. Wir wollen für den 
Augenblick nur bei diesem Punkt verweilen und zu diesem Zweck an- 
nehmen, daß eine Schätzung nicht eine Handlung von irgendwelcher Art, 
sondern eine theoretische Mutmaßung sei. Eine solche Schätzung kann von 
zwei ganz verschiedenen Gesichtspunkten aus für gut befunden werden: 
erstens deshalb, weil der Schätzwert nahe beim wahren ( wirklichen ) Wert liegt ; 
zweitens deshalb, weil gute Gründe dafür vorliegen , anzunehmen , der Schätzwert 
liege nahe beim wahren Wert . Wir wollen das erste gut im absoluten Sinn , das 
zweite gut im Stützungssinn nennen. Diese Terminologie soll hervorheben, 
daß im ersten Sinn ein Vergleich zwischen Schätzwert und zu schätzendem 
Wert vorgenommen wird, während im zweiten Sinn nur von einer gut ge- 
stützten Hypothese über den wirklichen Wert die Rede ist. Bei Verwendung 
dieser zweiten Bedeutung benötigt man allerdings ein Kriterium dafür, daß 
eine derartige Hypothese gut gestützt ist. 

Man möchte meinen, daß die Frage, welcher dieser beiden Begriffe der 
guten Schätzung vom epistemologischen Standpunkt aus der wichtigere 
ist, eindeutig zugunsten des zweiten Begriffs beantwortet werden müsse. 
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Denn entweder lernen wir den wahren Wert niemals kennen; dann können 
wir auch niemals einen Vergleich zwischen Schätzwert und wahrem Wert 
anstellen und niemals beurteilen, ob die Schätzung gut im ersten Sinn war. 
Oder aber wir lernen den wahren Wert zwar einmal kennen. Doch haben 
wir dann die Schätzung sicher vorgenommen, bevor wir ihn kennenlernten; 
ansonsten wäre sie ja überflüssig gewesen. Insgesamt kann man sagen: Wir 
wählen einen Schätzwert ( das Ergebnis einer Schätzung) nicht deshalb , weil wir mit 
Sicherheit wissen , daß er nahe beim wahren Wert liegt ; vielmehr wählen wir ihn , 
weil wir gute Gründe für die Annahme z u besitzen glauben, daß er nahe beim wahren 
Wert liegt . 

Ein Blick in die moderne statistische Schätzungstheorie lehrt allerdings, 
daß der erste Gütebegriff in den Vordergrund gerückt wird. Natürlich kann 
man sich dort nicht auf ein so primitives Verfahren wie den Vergleich 
zwischen Schätzwert und unbekanntem wahren Wert einlassen. Daher 
werden die Schätzfunktionen eingeführt. Deren Gütemerkmale, die in lO.c, 
(III) geschildert wurden, nehmen aber alle irgendwie auf den wahren Wert 
bezug. Wie die dortigen Überlegungen zeigten, gründen sich sämtliche Empfehlungen 
für die Auszeichnung bestimmter Schätzfunktionen letzten Endes darauf, daß diese 
Jm Durchschnitt ‘ ( Erw artungstreue ) oder y auf lange Sicht 6 (Konsistenz) Schätzwerte 
liefern, die tatsächlich nahe beim wahren Wert liegen. Wir wollen diese Auffassung 
von Statistikern dadurch charakterisieren, daß wir sagen : Die Probleme der 
Schätzung werden allein unter dem Gesichtspunkt der Optimalität auf lange 
Sicht betrachtet. Nach dem zweiten und von uns bevorzugten Gütebegriff 
werden Schätzungen demgegenüber unter dem Gesichtspunkt der Stützung 
von Schätzungshypothesen betrachtet. 

Was ist die Ursache dieses Widerstreites zwischen dem, was die Intui- 
tion nahelegt, und dem, was die statistische Praxis lehrt ? Darauf gibt es, wie 
Hacking bemerkt, wohl nur eine plausible Antwort : Wenn eben von guten 
Gründen für die Annahme gesprochen wurde, daß der Schätzwert nahe 
beim wahren Wert liegt, so ist damit gemeint, daß die statistischen Daten eine 
derartige Annahme stützen . Nun ist es aber ein wesentliches Merkmal der 
modernen Schätzungstheorien ebenso wie der Testtheorien, daß sie nicht 
auf einer Theorie der Stützung von Hypothesen basieren. Wenn keine 
Stützungstheorie, sei es statistischer, sei es sonstiger Hypothesen, vorhanden 
ist (und auch nicht einmal das Bedürfnis nach einer solchen empfunden 
wird), muß die Frage nach dem zweiten Gütebegriff in totale Skepsis ein- 
münden : Statistische Daten können dann eben niemals gute Gründe für die Über- 
zeugung liefern, daß ein Schätzwert dem wahren Wert nahekommt. Die Skepsis in 
bezug auf den zweiten Begriff erzwingt jetzt einen Rückgriff auf den allein 
verbleibenden ersten : die Optimalität auf lange Sicht. Daraus erklärt sich 
auch die Vorliebe für die Schätzfunktionen genannten Zufallsfunktionen, an 
denen sich diese long-run-Optimalitätseigenschaften in präziser Weise stu- 
dieren lassen. 
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Die nachträgliche Begründung für eine frühere Behauptung in 6.a, (d) ist 
jetzt gegeben: Es ist die Ablehnung von Stützungstheorien, welche die meisten 
Statistiker dazu veranlaßt, ein festes Abonnement auf long-run-Betrachtungen 
einzugehen. 

Um jedes Mißverständnis auszuschließen: Es ist durchaus denkbar, daß 
die zunächst getrennt angesetzten Untersuchungen — nämlich solche, die 
nach gut gestützten Schätzungen streben, und solche, die Schätzungen mit 
langfristigen Optimalitätsmerkmalen anvisieren — im Ergebnis gar nicht dif- 
ferieren, sondern konvergieren. Da sich darüber aber a priori überhaupt 
nichts aussagen läßt und es daher ebenso denkbar ist, daß die beiden Arten 
von Untersuchungen zu völlig abweichenden Resultaten gelangen, müssen 
zumindest zu Beginn der Untersuchungen die beiden Gesichtspunkte streng auseinan- 
dergehalten werden. 

Hacking setzt diese zwei Gesichtspunkte in Relation zu einer Unterscheidung, 
die bei der Diskussion der Testtheorie gemacht wurde: Eine Testtheorie kann 
vorzuziehen sein, wenn sie sich auf einen Zeitpunkt bezieht, zu dem noch keine 
Versuchsergebnisse vorliegen (z. B. die mit Umfang und Macht operierende Theorie) ; 
eine andere Testtheorie kann sich dann als besser erweisen, wenn es sich um die 
Auswertung bereits vorliegender Versuchsergebnisse handelt (z. B. die Likelihood- 
Testtheorie). Analog mag es als ratsam erscheinen, Schätzfunktionen mit 
long-run-Optimalität zu begünstigen, solange noch keine empirischen Daten ver- 
fügbar sind. Es ist nicht selbstverständlich, daß diese Schätzfunktionen auch dann 
noch gut sind, wenn es sich um eine Auswertung nach Vornahme geeigneter Ver- 
suche handelt. 

Doch die Parallele ist keine vollständige: Wenn sich ein Industriebetrieb lang- 
fristig auf die Produktion einer Warengattung einstellen will und dazu gewisse 
quantitative Merkmale der zu produzierenden Waren schätzt, so wird vermutlich 
einer Methode der Vorzug gegeben werden, die im Durchschnitt einen Wert liefert, 
der nahe beim wahren Wert liegt. Eine Person, die eine bestimmte Ware kaufen möch- 
te, welche sie für einen ganz bestimmten Zweck benötigt, wird dagegen vermut- 
lich nicht an langfristigen Optimalitätsmerkmalen interessiert sein, sondern einen 
Schätzwert wünschen, der aufgrund der verfügbaren Daten gut gestützt ist. Auch 
im ersten Fall aber wird sich die Schätzung auf eine empirische Basis stützen, nämlich 
auf die Resultate von bestimmten Stichprobenauswahlen. 

lO.e Theoretische Schätzungen und Schätzhandlungen. Die zuletzt 
vorgenommene Gütedifferenzierung von Schätzungen betraf nur Schätzun- 
gen als theoretische Überzeugungen. Von diesen sind die Schätzhandlungen zu 
unterscheiden. Zwischen Überzeugungen bilden auf der einen Seite und Han- 
deln auf der anderen wird in der statistischen Schätzungstheorie nicht scharf 
unterschieden. Viele Wahrscheinlichkeitstheoretiker dürften der Meinung 
sein, daß diese Differenzierung nur zu philosophischen Haarspaltereien 
führe, die für die Statistik ohne Relevanz sind. Daß eine solche Auffassung 
auf einem Irrtum beruht , z e W bereits der Streit zwischen solchen Autoren , die ver- 
langen , man müsse stets die Konsequenzen von Schätzungen bewerten , und anderen , 
die eine derartige Bewertungfür ausgeschlossen halten . 

Um in diesem Punkt größere Klarheit zu erzielen, dürfte es sich emp- 
fehlen, von der folgenden allgemeinen Feststellung auszugehen: Es gibt 
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Zwei große Begriffsfamilien , die scharf voneinander zu unterscheiden sind. Die 
eineBegriffsfamilie kann man durch das Schlagwort „Überzeugungen bilden“ 
ungefähr kennzeichnen, die andere durch das Schlagwort „handeln“. In 
beiden BegrifFsfamilien wird man zahlreiche Differenzierungen vornehmen 
müssen; außerdem sind die Zusammenhänge zwischen den Begriffen der 
einen und denen der anderen Familie zu erforschen. Was den ersten Punkt 
betrifft, so liegen zahlreiche Untersuchungen logischer, psychologischer, 
epistemologischer und entscheidungstheoretischer Natur vor, die aber noch 
längst nicht abgeschlossen sind. Was den zweitenPunkt, die Zusammenhänge 
zwischen den beiden Familien, anbelangt, so sind die Untersuchungen noch 
sehr im Anfangsstadium. Dies wird auch derjenige zugeben müssen, der 
nicht den vollkommen skeptischen Standpunkt Hac kings teilt, welcher 
zwar nicht bestreitet, daß man Fortschritte im Verständnis des Unterschie- 
des zwischen guten und schlechten Überzeugungen gemacht hat und eben- 
so Fortschritte in der Klärung von Handlungen und ihren Konsequenzen; 
daß man aber in bezug auf die Relation von Überzeugungen und Handlun- 
gen heute sagen müsse : „Hier herrscht nur Chaos und Begriffsverwirrung“ 80 . 

Hac king erwähnt zwei interessante mögliche Motive für die häufige Nicht- 
unterscheidung der beiden BegrifFsfamilien: 

(1) Der Begriff der Überzeugung (belief) wird als Dispositionsbegriff eingeführt. 
Diese Disposition wird dadurch genauer charakterisiert, daß man die Reaktions- 
weisen, also Handlungen , unter spezifizierten Umständen beschreibt. Man übersieht 
dabei leicht, daß Überzeugungen, auch wenn sie als Handlungsdispositionen defi- 
niert sind, selbst keine Handlungen darstellen. 

(2) Der Ausdruck „glauben“ (“to believe”) wird doppeldeutig verwendet. 
Glauben, daß etwas der Fall sei, ist ein rein theoretischer Akt; an etwas glauben hinge- 
gen kann einen praktischen Akt bezeichnen. Letzteres gilt besonders im religiösen 
Bereich. Pascal z. B. empfiehlt den Glauben an Gott: Wenn man an Gott glaubt, 
obzwar er nicht existiert, so verliert man nicht viel; wenn man nicht an ihn glaubt, 
obwohl er existiert, so verliert man u. U. ungeheuer viel , da man die ewige Verdammnis 
riskiert. „Glaube an“ bezeichnet hier etwas, das praktische Konsequenzen hat und 
das etwas Ähnliches ist wie ,die Entscheidung für das Christentum*. Da im Alltag 
„glauben, daß“ und „Glaube an“ ständig nebeneinander gebraucht werden, ist die 
Gefahr gegeben, über einen wesentlichen Unterschied in diesen Verwendungen 
hinwegzusehen. 

Für den gegenwärtigen Zusammenhang ist die folgende Überlegung 
bedeutsam: Theoretische Schätzungen gehören zur Begriffsfamilie der 
Überzeugungen. Und Überzeugungen haben überhaupt keine praktischen Konse- 
quenzen , jedenfalls nicht in dem Sinn, in welchem Handlungen Konsequen- 
zen besitzen. Wenn sich daher die oben erwähnte Gruppe von Statistikern 
dagegen wehrt, die Schätzungstheorie vollkommen in der Entscheidungs- 
theorie aufgehen zu lassen, und das damit begründet, daß sich die Konse- 
quenzen von Schätzungen nicht bewerten lassen, so ist darauf zu erwidern: 
Je nachdem, was unter „Schätzung“ verstanden wird, gesteht man entwe- 

80 [Statistical Inference], S. 166. 
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der dem Gegner schon viel zu viel zu, oder man behauptet etwas, was sich 
nicht halten läßt. 

Wenn man darunter theoretische Schätzungen versteht, so haben diese ja über- 
haupt keine Konsequenzen! Die These, daß sich die Konsequenzen solcher 
Schätzungen nicht bewerten lassen, ist dann eine leere Feststellung; denn was 
nicht existiert, kann erst recht nicht bewertet werden. Jene Gruppe von Statistikern 
reicht dem Teufel den kleinen Finger, wenn sie sagt, Schätzungen hätten unbe- 
wertbare praktische Folgen. Denn nur Schäxzbandlungen haben praktische Folgen 
und diese lassen sich auch bewerten. Man könnte sogar eine der Hauptaufgaben 
nationalökonomischer und soziologischer Theorien darin erblicken, die menschli- 
chen Entscheidungen für oder gegen bestimmte Wirtschaftsverfassungen und 
Gesellschaftssysteme dadurch zu erleichtern, daß sie die (mutmaßlichen) unge- 
wollten Konsequenzen von Handlungen aufzeigen und dadurch eine rationale 
Basis für wertmäßige Entscheidungen liefern; die Handlungen würden hier 
in der Einführung oder Abschaffung von Formen des Wirtschaftens und zwischen- 
menschlichen Zusammenlebens bestehen. Der Entideologisierung und Überwin- 
dung des Irrationalismus auf diesem Gebiet wäre damit sicherlich außerordentlich 
gedient. 

Wenn man sich mit dem Problemkomplex der Schätzungen befaßt, muß 
man sich daher zunächst darüber Rechenschaft geben, auf welchem Boden 
man steht: (1) Handelt es sich um theoretische Schätzungen , also um die Bil- 
dung theoretischer Überzeugungen ? Dann muß man alles berücksichtigen , was für 
oder gegen die Annahme spricht , daß die Überzeugung richtig ist ; etwaige unan- 
genehme Konsequenzen dieser Überzeugungen spielen keine Rolle, mag es 
solche geben oder nicht. (2) Handelt es sich um Schätzhandlungen , also um 
vorsätzliche Handlungen ? Dann gibt es nur einen vernünftigen Rat: Halte 
dir sämtliche mutmaßliche Konsequenzen vor Augen und wähle erst , nachdem du sie 
alle bewertet hast l 

Hacking betont ausdrücklich in polemischer Absicht, daß Schätzungen 
keine Handlungen, sondern Überzeugungen seien. Damit stellt er sich bewußt 
auf den Boden von (1). Die gesamte Schätzungsproblematik wird dann nur 
mehr unter dem Gesichtspunkt „Prüfung und Stützung von Hypothesen“ 
gesehen. Genau die gegenteilige Position nehmen die Entscheidungstheo- 
retiker und viele Statistiker ein. Für sie existiert nur der Problembereich 
(2). Demgegenüber erscheint es mir als sinnvoller, in Anbetracht der Dop- 
peldeutigkeit von „Schätzung“ beide Positionen als gleichberechtigte anzu- 
erkennen, zugleich aber zu betonen, daß es sich um heterogene Problem- 
komplexe handelt, die von ganz verschiedenen Theoriengruppen behandelt 
werden. 

Es seien einige Beispiele für die Vermengung der beiden Problembereiche 
angeführt. 

Carnap führt in [Probability] sowie in [Continuum] den Begriff der Schätzung 
zunächst als einen zur Begriffsfamilie der Überzeugungen gehörenden Begriff ein. 
Er definiert den Schätzwert einer Größe als gewogenes arithmetisches Mittel mit 
den induktiven Wahrscheinlichkeiten als Wägungskoeffizienten (vgl. etwa die 
Definition D23 — 1 in [I. L.], S. 197). Daß er hierbei ganz anders vorgeht als die 
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Statistiker, die ja nicht über seinen Begriff der c-Funktion verfügen, darf nicht dar- 
über hinwegtäuschen, daß sein Begriff zur ersten Familie gehört. Carnap gleitet 
jedoch unvermittelt in die zweite Begriffsfamilie hinüber, wenn er — wenn auch 
zunächst nur provisorisch — den praktischen Ratschlag erteilt, man solle so handeln , 
als wisse man> daß der Schätzwert ü einer Größe dem tatsächlichen Wert u gleiche (vgl. 
etwa [I.L.], Regel R 3 auf S. 111). Dieser Übergang vom Theoretischen ins Prak- 
tische ist höchst anfechtbar, weil für die Handlung Wertgesichtspunkte maßge- 
bend sind, die bei den theoretischen Überlegungen überhaupt keine Rolle spielen. 
Ein Auto Verkäufer kann überzeugt sein, daß er etwa 5 000 Autos benötigen wird, 
und diese Überzeugung kann in dem Sinn rational sein, daß es sich um die am besten 
gestützte Schätzung (gute theoretische Schätzung im Stützungssinn) oder um die 
dem wahren Wert am nächsten kommende Schätzung (gute theoretische Schätzung im 
absoluten Sinn) handelt. Trotzdem wird er vielleicht 6000 bestellen, weil er prak- 
tische Gründe dafür hat, für längere Zeit keine weiteren Bestellungen aufzugeben; 
oder er bestellt nur 3800, weil er praktische Gründe dafür hat, einen Überschuß im 
Lager mit Sicherheit zu vermeiden. Die Bestellung richtet sich nicht nach der 
theoretischen Schätzung oder zumindest nicht nach ihr allein, sondern nach dem 
Bedarf in der konkreten Situation. 

Eine ganz ähnliche Überlegung findet sich bei Savage (vgl. [Foundations], S. 
232). Er schildert die Situation einer Person, welche die Menge einer Ware, die 
sie für einen bestimmten Zweck benötigen wird, schätzt. Daraufhin beschreibt 
Savage ein Verfahren, welches angibt, wieviel man bestellen soll. Solche Verfahren 
zu entwickeln ist durchaus sinnvoll; nur bilden sie kein Verfahren der (theoreti- 
schen) Schätzung. Savage aber gibt vor, eine Schätzmethode zu schildern. 

Der Irrtum von Savage ist in gewissem Sinn das duale Gegenstück zu jenem 
Carnaps: Carnap schildert zunächst eine Methode zur theoretischen Schätzung 
einer Größe. In einem zweiten Schritt empfiehlt er die Wahl des so erhaltenen 
Wertes als der besten Schätz handlung. Er übersieht dabei, daß das in einem theore- 
tischen Sinn Beste nicht das in praktischer Hinsicht Zweckmäßigste zu sein 
braucht. Savage dagegen geht direkt auf das praktische Problem los und gibt da- 
für einen Lösungsvorschlag, tut aber so, als hätte er das theoretische Problem ge- 
löst. Angenommen, seine Lösung des Problems sei praktizierbar. Dann müßte man 
sagen : Er hat gezeigt , wie man in einer Situation der angegebenen Art am besten handelt , 
aber nicht , wie man am besten theoretische Schätzungen vornimmt ; denn gute Bestellun- 
gen erteilen ist etwas anderes als den Betrag der Ware, den man benötigt, richtig 
schätzen. Savage hat auch nicht eine simultane Lösung des Schätz- und Bestel- 
lungsproblems geliefert. Bestenfalls hat er gezeigt, wie man das zweite Problem 
lösen kann, ohne in die Diskussion des ersten überhaupt einzutreten. 

Daß auch für solche modernen Statistiker, die nicht wie Savage aus der per- 
sonalistischen Schule kommen, die Grenze zwischen theoretischen und prakti- 
schen Fragen verschwimmt, zeigt wieder ein Beispiel aus dem Buch von Freund. 
Unmittelbar an seine eingangs zitierte Äußerung (vgl. 10. a), aus der man immer- 
hin noch Gleichwertigkeit von theoretischen und praktischen Gesichtspunkten 
herauslesen könnte, betont Freund, daß sich der gesamte Problemkomplex des 
statistischen Schließens nur unter dem Gesichtspunkt der Entscheidungstheorie in 
einheitlicher Weise behandeln lasse. Er schildert daraufhin (a.a.O., S. 210 f.) das 
allgemeine Schema für ein solches Vorgehen: Im üblichen entscheidungstheore- 
tischen Formalismus wird eine Verlustfunktion (das negative Spiegelbild zur 
Nutzenfunktion) eingeführt. Ferner wird eine Entscheidungsfunktion ö definiert, 
welche auf dem Stichprobenraum erklärt ist und deren Werte die verschiedenen 
Handlungen bilden, die man nach Vornahme eines Experimentes (und Feststel- 
lung von dessen Resultat) wählen kann. Schließlich wird noch eine zweistellige 
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Risikofunktion q (#, ö) benützt, die sich aus der Verlustfunktion herleiten läßt und 
durch die man den Erwartungswert des Verlustes gewinnt, dem wir ausgesetzt 
sind, wenn # der wahre Wert des Parameters ist und ö die benützte Entscheidungs- 
funktion darstellt. 

Diese Andeutung dürfte genügen, um ersichtlich zu machen, daß auch bei 
Freund das Problem ganz unter dem praktischen Handlungsgesichtspunkt ge- 
sehen wird. Als Objektivist wagt er es zwar, vom wahren Wert eines Parameters zu 
sprechen. Doch unter Schätzen wird nicht ein theoretischer Akt, sondern eine 
Handlung verstanden, die vorteilhafte oder nachteilige Konsequenzen hat. Dies steht in 
einem etwas merkwürdigen Mißverhältnis zu den folgenden Ausführungen, in 
denen fast ausschließlich die in 10. c, (IV) angeführten Merkmale der Optimalität 
auf lange Sicht behandelt werden (in unserer Terminologie also um theoretische 
Güte im absoluten Sinn, nicht im Stützungssinn). 

Man könnte uns nicht ganz zu Unrecht vorwerfen, daß die bisherigen 
Ausführungen, soweit sie den Unterschied von theoretischen Schätzungen 
und Schätzhandlungen betreffen, unbefriedigend sind, da sie mehr pole- 
mischer als klärender Natur seien. Dies ist insofern ein unvermeidbarer 
Mangel, als eine befriedigende Theorie der Schätzung, die nicht nur theore- 
tische Schätzungen betrachtet, auf einer noch nicht existierenden , befriedigenden 
und umfassenden Theorie des menschlichen Handelns auf bauen müßte. Immerhin 
erörtert die rationale Entscheidungstheorie einen wichtigen Aspekt einer 
solchen Theorie, die im übrigen noch ein Desiderat ist. Als Entschuldigung 
sei noch angeführt, daß sinnvolle Polemik prinzipiell auch zur Klärung bei- 
tragen kann. 

Was die Schätzungen als theoretische Akte betrifft, so dürfte allerdings 
keine prinzipielle Unklarheit mehr bestehen, falls es sich nicht überhaupt um 
Unklarheiten in den Grundlagen der Statistik handelt 81 . Soweit die Objekte 
von theoretischen Schätzungen Parameter von statistischen Verteilungen 
sind, handelt es sich nur um Spezfalfälle von statistischen Hypothesen. Damit 
wird alles von Relevanz, was über Stützung und Prüfung statistischer 
Hypothesen gesagt wurde und noch zu sagen sein wird. Pflichtet man dem 
Vorgehen Häc kings im Prinzip bei, dann ist der grundlegende Gütebegriff 
der Begriff der guten Schätzung im Stützungssinn ; denn nur dieser Begriff be- 
ruht auf einer Theorie der Stützung statistischer Hypothesen. Gibt man je- 
doch dem Vorgehen der objektivistischen Statistiker den Vorzug, dann 
muß die Güte im absoluten Sinn in den Vordergrund gerückt werden, für 
welche Merkmale der Optimalität auf lange Sicht maßgebend sind; denn 
bei dieser Denkweise steht eine Theorie der Stützung statistischer Hypothe- 
sen überhaupt nicht zur Verfügung. 

Einige weitere Bemerkungen dürften (hoffentlich) der Abgrenzung des 
Theoretischen vom Praktischen dienlich sein. Zunächst: Wo liegt die 
Grenze überhaupt ? Sie ist jedenfalls sehr eng zu ziehen. Bereits die (laut- oder 
schrift-) sprachliche Artikulation einer theoretischen Schätzung kann eine Handlung 

81 Ich spiele damit auf die später ausführlich erörterte subjektivistische Kritik 
an, die sich auch gegen das bisherige Vorgehen richten würde. 
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sein, die in heutig auf ihre positiven und negativen Effekte wertmäßig %u beurteilen ist . 
Selbst wenn eine Schätzung als theoretische Schätzung gut ist (sei es im 
absoluten Sinn, sei es im Stützungssinn), kann es unvernünftig sein, sie aus- 
zusprechen. Wenn mein Freund mir seine neue Wohnung zeigt, auf die er 
offensichtlich sehr stolz ist, und mich fragt, für wie groß ich sie schätze, so 
kann es sein, daß meine Vermutung lautet: „etwa 90 m 2 “, daß ich aber aus 
Gründen des Taktes sage : „ich schätze, 120 m 2 “. 

Dieses triviale Beispiel sollte aber nicht die doch wieder einseitige Auf- 
fassung begünstigen, daß bei Schätzhandlungen nur soziale Wertbetrach- 
tungen eine Rolle spielen. Zur Begründung dafür greifen wir auf das bei der 
Kritik der axiomatischen Rechtfertigung der Regel E. R. gegebene zweite 
Urnenbeispiel zurück (vgl. S. 101 £.). Angenommen, ich gelange zu der 
Überzeugung, daß es unvernünftig wäre, für jede gegebene Urne stets h 1 
zu akzeptieren, wenn weiß aufscheint, dagegen h 3 zu akzeptieren, wenn 
schwar% aufscheint. Das Motiv meiner Überzeugung ist klar : Ich würde stets 
falsch raten, wenn die Urne die Struktur (b) hat; da alle Urnen diese Struk- 
tur haben können, rate ich bei dieser Strategie evtl, immer falsch. Daher ent- 
schließe ich mich zu der früher geschilderten gemischten Strategie : Wenn 
weiß aufscheint, werfe ich eine unverfälschte Münze und rate (a) oder (b), 
je nachdem ob Kopf oder Schrift erscheint; falls schwarz aufscheint, werfe 
ich ebenfalls eine Münze und mache von dem Ergebnis des Wurfes mein 
Raten zugunsten von (b) oder von (c) abhängig. Dieses Raten ist kein theo- 
retischer Akt der Überzeugung, sondern eine Schätzhandlung l Wenn ich weiß ziehe, 
so kann ich durchaus der theoretischen Überzeugung sein, daß die Urne die 
Struktur (a) hat; analog kann ich, wenn ich schwarz ziehe, der theoretischen 
Überzeugung sein, daß die Struktur (c) vorliegt. Strategische Zusatzbetrach- 
tungen halten mich jedoch davon ab, diese theoretischen Überzeugungen 
praktisch in der Form eines entsprechenden Ratens zu realisieren. Da ich mir 
das Ziel setzte, die maximale Irrtumswahrscheinlichkeit zu minimalisieren, 
gelangte ich aufgrund einer Rechnung dazu, eine gemischte Stratege zu 
wählen, die zu einer Politik führt, welche mit meiner theoretischen Überzeugung 
nicht im Einklang zu stehen braucht (ob Einklang herrscht oder Konflikt, hängt 
vom Ergebnis der Münzwürfe ab). 

Gegen diese Deutung könnte eingewendet werden, daß man genauso 
gut den Akt des Ratens auch als einen theoretischen Akt betrachten könnte. 
Es bestehe daher kein Konflikt zwischen ? Theorie und Praxis*, sondern ein 
Konflikt zwischen zwei Arten theoretischer Überzeugungen. Wenn man 
aber die frühere These akzeptiert, daß man nicht bei theoretischen Über- 
zeugungen, sondern erst bei Handlungen von Konsequenzen sprechen 
können, die es zu bewerten gilt, so ergibt sich die Antwort auf diesen Ein- 
wand fast von selbst: Die Wahl der gemischten Strategie war durch die 
Überlegung motiviert, welche fatale Konsequenz es u. U. haben könnte, 
immer den theoretischen Vermutungen nachzugeben. Wie aber kann ein 
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Akt des Ratens fatale Konsequenzen haben ? Antwort : Dazu muß man den 
praktischen Kontext berücksichtigen. Dieser kann z. B. darin bestehen, daß 
ich Urne für Urne eine Wette abschließe und insgesamt so oft me möglich 
gewinnen möchte (ob der Gewinn rein ,ideeller* Natur ist oder sich in Ver- 
mögenswerten niederschlägt, spielt dabei keine Rolle). Wenn immer die 
von mir gewählte gemischte Strategie empfiehlt, zu raten, daß die Urne von 
der in h 2 ausgesprochenen Struktur ist, so liegt ein Konfliktfall vor: Die 
^praktische Vernunft* lehrt mich, etwas zu raten, was nicht dem entspricht, 
was die ^theoretische Vernunft* mich anzunehmen heißt. 

Zusammenfassung. Unsere Überlegungen haben zu zwei verschiedenen Arten 
von Kritik geführt. Da es außerordentlich wichtig ist, diese beiden Arten der Kri- 
tik nicht miteinander zu konfundieren, sei das Wesentliche nochmals gesagt (und 
zwar diesmal in umgekehrter Reihenfolge). Erstens vernachlässigen Statistiker 
meist den fundamentalen Unterschied zwischen theoretischen Überzeugungen oder 
Vermutungen auf der einen Seite und Handlungen ( praktischen Akten ) auf der anderen. 
Wenn wir auch heute noch keine befriedigende Antwort auf die Frage geben 
können: „Durch welche Merkmale sind Handlungen charakterisiert (oder viel- 
leicht allgemeiner: welche Art von Begriffsfamilie wird durch , Handlung* um- 
schrieben) ?**, und noch weniger eine befriedigende Antwort auf die Zusammen- 
hänge von ^Theorie und Praxis* zu geben vermögen, so dürfte es doch möglich 
sein, für den augenblicklichen Zweck ein Abgrenzungskriterium zu formulieren: 
Theoretische Überzeugungen und Vermutungen sind richtig oder falsch; dagegen 
haben sie keine praktischen Konsequenzen. Wo von solchen Konsequenzen die 
Rede ist, liegt kein theoretischer Akt, sondern eine Handlung vor. Die mutmaß- 
lichen Konsequenzen von Handlungen müssen bewertet werden; und die tatsäch- 
lich gewählte Handlung ist vom Ergebnis dieser Bewertung abhängig zu machen. 

Diese Differenzierung ist auf Schätzungen zu übertragen. Theoretische Schätzun- 
gen sind Vermutungen und haben keine praktischen Folgen. Schätzhandlungen hin- 
gegen haben solche Folgen. Daher spielen in der zweiten, nicht aber in der ersten 
Klasse von Fällen Wertgesichtspunkte verschiedenster Art eine Rolle: soziale 
(Takt, Ansehen, Prestige, Macht) und rein persönliche (Geldgewinn und -Verlust, 
Unlustvermeidung und Lustzuwachs). Gewisse wichtige Aspekte dieser zweiten 
Klasse werden in der rationalen Entscheidungstheorie behandelt. Die Forderung, 
alle Schätzprobleme im Rahmen der Entscheidungstheorie zu erörtern, beruht hin- 
gegen auf einer Vermengung zweier heterogener Begriffsfamilien. 

Angenommen, man beschränkt sich auf Schätzungen im Sinn theoretischer Ver- 
mutungen. Soweit sich diese auf Parameter statistischer Verteilungen beziehen, 
handelt es sich um Spezialfälle von statistischen Hypothesen ; soweit sie sich auf etwas 
anderes beziehen, handelt es sich um nichtstatistische Hypothesen (z. B. bei der 
Schätzung der heutigen Temperatur aufgrund meiner subjektiven Kälteemp- 
findungen). Die Beurteilung solcher Vermutungen als gut oder schlecht kann 
unter zwei ganz verschiedenen Gesichtspunkten erfolgen. Nach dem einen Ge- 
sichtspunkt ist die tatsächliche Nähe zw? wahren Wert maßgebend. Dies führt dazu, 
Schätzfunktionen auszuzeichnen, welche Merkmale der long-run-Optimalität besitzen. 
Nach dem anderen, vermutlich wichtigeren Gesichtspunkt, kommt es darauf an, 
die Schätzung als mehr oder weniger gut durch die Fakten gestützt zu beurteilen. Die 
Beurteilung unter dem ersten Gesichtspunkt setzt nur den Apparat der mathema- 
tischen Statistik voraus; die Beurteilung unter dem zweiten Gesichtspunkt muß 
auf eine Theorie der Stützung statistischer Hypothesen zurückgreifen. 
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Die in dieser Zusammenfassung nochmals angedeuteten Schwierigkeiten 
sind nicht die einzigen. Weitere treten hinzu. 

lO.f Das Skalendilemma. Zwecke von Schätzungen. Carnap hat in 
[Probability] auf S. 531 ein Problem angeführt, welches er das Paradoxon 
der Schätzung nennt. Die Carnapsche Formulierung macht zwar Gebrauch 
von seiner Theorie der r-Funktionen, doch läßt sich bei dem Problem davon 
vollkommen abstrahieren. 

Angenommen, eine Größe /habe die drei möglichen Werte 1, 2 und 3. 
Als Schätzwert werde der Durchschnitt genommen, also 2. Der Schätzwert 
von / 2 ist dann 4. Andererseits sind die möglichen Werte von / 2 1, 4 und 9, 
deren Durchschnitt 14/3 beträgt, also einen größeren Wert als 4 liefert. 
Dieses elementare Beispiel zeigt, daß es für eine Größe, die als nichtlineare 
Funktion von Größen definiert ist, einen Unterschied ausmacht, ob man sie 
selbst schätzt oder ob man die Schätzung in der Weise vornimmt, daß man 
zunächst die in der Definition benützten Größen schätzt und erst dann die 
funktionelle Operation anwendet. 

Carnap nennt dies deshalb ein Paradoxon, weil die schätzende Person 
im obigen Beispiel vor zwei unvereinbare Alternativen gestellt ist: Nach 
der einen soll sie als Wert von / 2 vernünftigerweise 4 erwarten und dies als 
Grundlage für ihre praktischen Entscheidungen wählen. Nach der anderen 
soll sie vernünftigerweise den größeren Wert 14/3 erwarten und so handeln, 
als wüßte sie, daß / 2 den Wert 14/3 hat. Die Person kann sich aber nur für 
eine Handlung entschließen. Carnaps Lösungsvorschlag besteht darin, 
Regeln anzuwenden, in denen auf Vermögenswerte bzw. allgemeiner: 
auf Nützlichkeiten, bezug genommen wird. 

Die Behandlung dieses Fragenkomplexes ist eine gute Exemplifikation 
dessen, was früher allgemein kritisiert wurde : das Hinübergleiten vom Theo- 
retischen ins Praktische 82 . Die Wendung, „der Schätzende solle so handeln y 
als wüßte er . . .“, die zu Beginn der Überlegung Carnaps vorkommt, ist 
höchst anfechtbar. Sein Lösungsvorschlag kann als ein guter Vorschlag in 
bezug auf S chätzhandlungen akzeptiert werden; theoretische Schätzungen 
läßt er unberührt. 

Zur Illustration der Wertgesichtspunkte sei ein konkretes Beispiel gegeben: 
die Europa-Brücke südlich von Innsbruck. Bei ihrer Konstruktion mußte davon 
ausgegangen werden, daß diese Brücke der maximalen Belastung standhalten 
müsse. Die maximale Belastung während der Zeit ihrer Existenz kennt man aber 
nicht; man kann sie nur schätzen. Der maximale tatsächliche Belastungswert r kann 
überschätzt oder unterschätzt werden. Die Brücke muß einem starken Föhnsturm 
(der dort häufig vor kommt) standhalten, auch einem orkanartigen Wirbelsturm 
(der dort ziemlich selten vorkommt), ferner sogar einem tektonischen Erdbeben 
von der Stärke 7 (das in der Umgebung von Innsbruck nur alle paar Jahrzehnte vor- 

82 Zugleich liefert dies wieder ein Beispiel dafür, daß bereits im großen Werk 
von 1950 der normativ-entscheidungstheoretische Gesichtspunkt den theoreti- 
schen verdrängte. 
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kommt). Es ist außerordentlich unwahrscheinlich, daß alle drei Ereignisarten ein- 
mal gleichzeitig stattfinden werden. Trotzdem wurde die Brücke unter der An- 
nahme gebaut, so etwas könnte geschehen. Geschieht es nicht, so wurde r zu 
einem Betrag r -f k überschätzt und, nehmen wir an, 200 Millionen österreichische 
Schillinge wurden zuviel ausgegeben. Der möglichen Überschätzung steht eine 
gleichgroße mögliche Unterschätzung r—k zur Seite. Hätte man r—k zur Grund- 
lage der Berechnung gemacht und würde einmal eine diesen Betrag übersteigende 
Belastung Zustandekommen, so würde der Schaden in die Milliarden gehen; 
außerdem würden vermutlich Menschenleben vernichtet. Obwohl rein theoretisch 
ununterscheidbar, ist in diesem Fall eine Überschätzung wesentlich sinnvoller als 
eine Unterschätzung. Es spielt für diese Überlegung keine Rolle, ob r die tat- 
sächliche Maximalbelastung ist, der die Brücke einmal ausgesetzt sein wird, oder 
die Maximalbelastung, mit der man aufgrund der heutigen Daten (der Meteoro- 
logie, Erdbebenforschung usw.) rechnen muß. 

Carnap meint nun, daß auf theoretischer Ebene überhaupt kein Pro- 
blem entstehe. Die Aussage „der Schätzwert von /ist 2; also ist das Quadrat 
dieses Schätzwertes 4“ sei verträglich mit „der Schätzwert von / 2 beträgt 
14/3“. Eine scheinbare Unverträglichkeit entstehe erst dann, wenn man 
diese Aussagen fehlerhaft als Voraussagen interpretiere. 

Wäre dem so, dann wäre das Problem aus der Welt geschafft : Als theo- 
retisches Problem existiert es nicht, und als praktisches Problem muß es 
durch Heranziehung geeigneter Wertgesichtspunkte gelöst werden. 

Carnaps Äußerung enthält aber in bezug auf den theoretischen Aspekt 
wiederum eine Verniedlichung des Problems. Die Frage tritt nicht nur auf, 
wenn man nichtlineare Funktionen gegebener Größen wählt. Sie tritt be- 
reits dann auf, wenn man von einer Skala zu einer anderen übergeht : Was 
bei der Benützung der einen Skala als kleiner Wert erscheint, ist aufgrund 
der anderen ein großer Wert und umgekehrt. Ob ein Irrtum bei der Schätz- 
ung als groß oder als klein zu beurteilen ist, hängt somit davon ab, was für 
eine Skala gewählt wurde 83 . 

Die Lösung dieses Problems dürfte darin zu suchen sein, daß man seine 
Beantwortung ablehnt und für die Ablehnung die folgende Begründung 
gibt: Im Rahmen der Schätzungstheorie sind Skalen (einschließlich ihrer 
Verwendungsweise) als vorgegeben anzusehen. Ist nicht eine, sondern sind 
mehrere vorhanden, so kann man die Schätzungen nach mehreren Skalen 
vornehmen. Ist überhaupt keine vorhanden (z. B. für die Messung des 
Schadens im Fall einer möglichen enormen Naturkatastrophe), so muß man 
ehrlich sein und sagen, man könne keine Schätzung vornehmen. 

83 Sogar die Art der Verwendung derselben Skala kann entscheidend sein. Es werde 
etwa der Abstand eines Punktes auf dem Großkreis einer Kugel vom Nullpunkt 
im Winkelmaß geschätzt. Die Schätzung liefert den Wert +2°, während der Ab- 
stand tatsächlich —2° beträgt. Man wird sagen: der Irrtum beträgt +4°. Wie aber, 
wenn jemand behauptet, der Irrtum betrage +356°, weil er im positiven Winkel- 
maß (Gegenuhrzeigersinn) mißt? Man wird vermutlich erwidern, dies sei ein 
Sophisma. Aber so etwas sagt sich leichter als es sich begründen läßt. 
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Wenn man nach den Gründen für die Wahl einer Skala fragt, so muß 
man auf die Zwecke zu sprechen kommen, welche die Wahl dieser Skala 
motivierten. Dies ist nicht zu verwechseln mit einem abermaligen Abgleiten 
vom Theoretischen ins Praktische. Denn diese Zwecke sind keine Zwecke 
der Schätzung; daher braucht man auf sie im Rahmen der Schätzungstheorie 
nicht zu sprechen kommen. Auf die Frage nach dem Warum kann der 
Schätzungstheoretiker erwidern: „Das weiß ich nicht. Es geht mich auch 
gar nichts an (oder: interessiert mich nicht).” 

Zwecke spielen somit an zwei ganz verschiedenen Stellen der Schätzung 
eine Rolle. Von Zwecken der Schätzung zu sprechen, ist sinnvoll und sogar 
unbedingt notwendig, wenn man Schätzhandlungen vollziehen möchte. Bei 
theoretischen Schätzungen braucht man dagegen auf derartige Zwecke 
nicht zu sprechen kommen. Zwar gibt es Zwecke, welche die Wahl der ver- 
verfügbaren metrischen Skalen bestimmten. Aber dies sind keine Zwecke 
der Schätzung. 

lO.g Schätzungen im engeren und Schätzungen im weiteren Sinn. Zu 

den bisherigen Differenzierungen müssen wir leider noch eine weitere hinzu- 
fügen. Wir haben eingangs festgestellt, daß man theoretische Schätzungen 
beliebiger Größen vornehmen kann. Später haben wir den Begriff der theo- 
retischen Schätzung im statistischen Sinn auf Hypothesen über den Para- 
meterwert von Verteilungshypothesen beschränkt. Wir wollen jetzt die 
letzteren als Schätzungen im engeren Sinn bezeichnen. Im ersten Fall sprechen 
wir von Schätzungen im weiteren Sinn , soweit dabei statistische Verfahren be- 
nützt werden. Die erste Klasse ist dadurch charakterisiert, daß Vermutun- 
gen über den wahren Wert einer statistischen Größe (z. B. des Parameters 
einer Verteilungshypothese bestimmter Art oder des Mittels oder der 
Varianz) angestellt werden. Die zweite Klasse ist dadurch gekennzeichnet, 
daß die geschätzten Größen nichtstatistischer Natur sind. Wie ist es möglich, 
daß statistische Verfahren für die Schätzung nichtstatistischer Größen be- 
nützt werden ? 

Die beste Antwort liefert ein Blick in die Geschichte der Schätzungen. 
Es verhält sich nämlich nicht so, daß zunächst die Schätzungstheorie im 
engeren Sinn entwickelt wurde, um dann zu einer Theorie der Schätzungen 
nichtstatistischer Größen erweitert zu werden. Vielmehr ist umgekehrt die 
erste Theorie relativ jungen Datums (sie beginnt strenggenommen erst in 
den zwanziger Jahren dieses Jahrhunderts), während die Schätzungstheorie 
im weiteren Sinn bereits vor Jahrhunderten begann und sich dann unter der 
Bezeichnung Fehlertheorie vor allem auf zwei Gebieten entwickelte. 

Das eine davon betrifft die Messungen von nichtstatistischen Größen 
(z. B. Größenabständen zwischen Sternen und Galaxien; Messungen von 
Schmelz- und Verdampfungspunkten bestimmter Substanzen). Bekanntlich 
ergeben sich immer von Messung zu Messung gewisse Abweichungen. Auf 
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der Grundlage der gewonnenen tatsächlichen und miteinander nicht über- 
einstimmenden Meßwerte soll der wahre Wert der Größe geschätzt werden. 
In Band II, Kap. I, 9, S. 106, wurde ein von D. Bernoulli zur Illustration 
dieses Sachverhaltes gegebenes Bild geschildert. In diesem Bild wird die 
Messung mit der Tätigkeit eines Bogenschützen verglichen, der auf ein uns 
unbekanntes Ziel schießt. Die Aufgabe besteht darin, aus einer Kenntnis 
der Einschußstellen und der Fähigkeiten des Schützen auf den wahren 
Zielpunkt zu schließen. Die Einschußstellen entsprechen in diesem Bild den 
tatsächlichen Meßresultaten, und der unbekannte Zielpunkt dem unbekann- 
ten wahren Wert der Größe. Wir waren a. a. O., S. 108, zu dem Ergebnis 
gelangt, daß man als systematische Basissä t^e gewisse statistische Hypothesen , 
nämlich die mittels statistischer Schätzverfahren gewonnenen Vermutungen 
über den wahren Wert, anzusehen habe, nicht dagegen die Aussagen über 
die tatsächlichen Meßresultate. Die letzteren bilden nur die empirischen 
Daten für die Beurteilung der ersteren. Würden wir die tatsächlichen Meß- 
resultate einer Prüfung von quantitativen Hypothesen zugrundelegen, so 
wäre nach kurzer Zeit jede derartige Hypothese effektiv falsifiziert. Quanti- 
tative Hypothesen werden nicht aufgrund von Meßresultaten beurteilt , sondern auf- 
grund von statistischen Vermutungen über wahre Meßwerte , wobei sich diese stati- 
stischen Vermutungen ihrerseits auf die faktischen Meßwerte stützen. Das Über- 
prüfungsverfahren ist auch im deterministischen Fall zweistufig und basiert 
auf der Beurteilung der Richtigkeit einer statistischen Hypothese. 

Ein zweites Gebiet betrifft die Wahl einer möglichst einfachen und passenden 
Kurve , die durch endlich viele Punkte hindurchgeht. Diese Punkte bilden 
die geometrische Veranschaulichung von Beobachtungen (genauer: von 
statistischen Hypothesen der eben erwähnten Art, die wir systematische 
Basissätze nannten). Die Kurve selbst ist, wie wir dort feststellten, der ana- 
lytische Ausdruck für ein hypothetisch angenommenes deterministisches 
Naturgesetz. Eines der bekanntesten Verfahren bildet hier die Methode der 
kleinsten Quadrate y die auf einen Gedanken von Gauss zurückgeht. Angenom- 
men, es stehe uns bereits ein zweifaches Wissen zur Verfügung : (1) eine Kennt- 
nis der Struktur der Kurve, die zu einer Klasse K von in Frage kommenden 
Kurven führt; (2) endlich viele Beobachtungsresultate (in dem eben quali- 
fizierten Sinn), von denen wir voraussetzen, daß sie approximativ Punkte 
auf der Kurve wiedergeben. Nach der Methode der kleinsten Quadrate ist 
diejenige Kurve zu wählen, für welche die Summe aus den Quadraten der Abstände 
'wischen den gemessenen Punkten und der Kurve ein Minimum bildet . Eine andere 
Methode stammt von K. Pearson : die sog. Methode der Momente . Wiederum 
seien das Ausgangswissen (1) sowie (2) verfügbar. Falls eine bestimmte 
Kurve aus der durch (1) vorgegebenen Klasse K von Kurven durch die 
ersten n Momente über dem Mittel festgelegt ist, hat man nach Pearson 
folgendermaßen zu verfahren: Zuerst ist der Durchschnitt aus den Meß- 
werten zu wählen und dann sind die n Momente über diesem Durchschnitt 




Probleme der Schätzungstheorie 



205 



zu bestimmen. Man wähle sodann dasjenige Element aus K, welches die so 
errechneten Werte als die ersten n Momente aufweist. 

Bezüglich all dieser Verfahren ist wissenschaftstheoretisch zweierlei von 
Bedeutung: Erstens kehrt die doppelte Wissensbasis, die bei statistischen 
Hypothesen in dem „statistisches Datum“ genannten geordneten Satzpaar 
ihren Niederschlag fand, auch hier wieder: (1) repräsentiert das background- 
knowledge y (2) repräsentiert die empirische Basis . Der zweite Punkt betrifft die 
Beurteilung dieser Verfahren: Was beide Verfahren auszeichnet , sind Einfach- 
heitsüberlegungen , nicht jedoch eine Erfolgsgarantie . Beide Verfahren (sowie be- 
liebige andere) führen nur zu hypothetischen Verallgemeinerungen. Und 
diese können, wie alle Hypothesen, falsch sein. 

Eine der bekanntesten Methoden der Punktschätzung, die Methode der 
Maximum Likelihood von R. A. Fisher 84 , ist hingegen als Methode der 
Punktschätzung i. e. S. konzipiert worden. In der früheren Terminologie 
kann die Maxime dieser Theorie bündig formuliert werden: „Wähle auf- 
grund des statistischen Datums denjenigen unter den möglichen Schätz- 
werten des Parameters, der den Parameter der am besten gestützten sta- 
tistischen Hypothese bildet!“ Oder noch kürzer (wenn auch etwas mißver- 
ständlich): „Wähle den Schätzwert, der aufgrund der Daten die größte 
Likelihood besitzt!“ 

lO.h Kritisches zu den Optimalitätsmerkmalen auf lange Sicht, zur 
Minimax-Theorie und zur Intervallschätzung. Wenn man überhaupt mit 
Schätzfunktionen arbeitet, so ist das in lO.c, (IV) (d) angeführte Merkmal, 
erschöpfend zu sein, sicherlich wünschenswert. Denn eine Schätzung, die 
nicht alle durch die empirischen Daten zur Verfügung gestellten Informa- 
tionen verwertet, ist unvollständig; sie sollte jedoch in diesem Sinn voll- 
ständig sein. 

Wie aber steht es mit den drei übrigen Merkmalen der Erwartungstreue, 
Effizienz und Konsistenz? Könnte man zwingende Gründe zugunsten 
dieser Eigenschaften Vorbringen, so wären dies vermutlich indirekt auch 
Gründe dafür, die Güte im absoluten Sinn der Güte im Stützungssinn vor- 
zuziehen (obwohl auch dies keineswegs selbstevident ist; denn das Ope- 
rieren mit Schätzfunktionen wird bei der Frage nach solchen Gründen ja 
schon vorausgesetzt). Nun scheint es aber , daß überzeugende Gründe niemals vor- 
gebracht worden sind , sondern statt dessen nur mehr oder weniger vage Appelle an die 
Intuition vorgenommen wurden. Es liegt daher nahe, den Spieß umzudrehen 
und umgekehrt zu fragen, ob sich Bedenken gegen die Auszeichnung von Schätz- 
funktionen mit diesem Merkmal Vorbringen lassen , und wenn ja , welcher Art diese 
Bedenken sind. Zunächst muß hervorgehoben werden, daß überhaupt nicht 
einzusehen ist, warum ein Merkmal der Optimalität auf lange Sicht auch ein 
vorteilhaftes Merkmal für einen konkreten Einzelfall sein soll. Das gilt um 

84 Auch diese Methode ist jedoch bereits in den Werken von D. Bernoulli 
und Gauss angedeutet. 
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so mehr, als die long-run-Betrachtung nicht einmal eine lange Sicht im 
menschlichen Sinn , sondern nur im Sinn mathematischer Konvergenz darstellt. 

Zugunsten der Forderung nach Erwartungstreue wird z. B. vorgebracht, 
daß eine Schätzfunktion mit dieser Eigenschaft Schätzwerte liefert, deren 
Durchschnitt auf lange Sicht nachweislich mit dem wahren Wert identisch 
ist. Wer aber eine Größe schätzt, der beurteilt diese Größe nur einmal in einer 
konkreten Situation. Hingegen erzeugt er keine Folge von Schätzungen; und 
schon gar nicht eine beliebig lange. Warum soll nicht eine verfälschte, d. h. 
nicht erwartungstreue Schätzfunktion hic et nunc einen als vernünftiger 
oder besser empfundenen Schätzwert liefern denn eine erwartungstreue? 
Darauf läßt sich wohl nur antworten: Selbstverständlich kann sie das. 

Aber selbst wo es um den langfristigen Durchschnitt geht, würde die 
Annahme, erwartungstreue Schätzfunktionen seien eo ipso verfälschten 
Schätzfunktionen überlegen, auf einem Denkfehler beruhen. (Man lasse 
sich durch die suggestiven Prädikate nicht irreführen.) Dazu ein triviales 
Beispiel: / sei eine Schätzfunktion, die systematisch von Fall zu Fall zu 
enormen Fehlschätzungen führt. Eine solche Funktion wird man sicherlich 
als unvernünftig ablehnen. Trotzdem kann f erwartungstreu sein: die positiven 
Fehler (Überschätzungen) und die negativen Fehler (Unterschätzungen) 
können sich die Waage halten, so daß im Durchschnitt der wahre Wert 
herauskommt. 

Ein Plausibilitätsargument zugunsten der relativen Effizienz ist bereits 
bei der Einführung dieses Begriffs vorgebracht worden. Tatsächlich gilt 
folgendes: Wenn die Verteilungen von Schätzfunktionen Normalverteilun- 
gen oder annähernde Normalverteilungen sind, so ist einer Funktion mit 
kleinerer Varianz gegenüber einer solchen mit größerer Varianz der Vorzug 
zu geben. Diese V orzugseigenschaft gilt im absoluten Sinn und im Stützungssinn . 

Trotzdem läßt sich auch hier Kritik üben: Das auszeichnende Merkmal 
ist eine Vorzugseigenschaft von Schätz funktionen. Dieser Vorzug braucht 
sich auf die einzelnen Schätzungen, die wir vornehmen, nicht zu übertragen. 
In der Sprache der Stützung formuliert: Eine individuelle Schätzung, die 
mittels einer Schätzfunktion f x vorgenommen wurde, kann besser gestützt 
sein als die mit einer Schätzfunktion f 2 gemachte individuelle Schätzung, 
selbst wenn die relative Effizienz von f 2 größer ist als die von f v 

Im verstärkten Maß gelten die Bedenken gegen die Eigenschaft der 
Konsistenz • Die intuitive Begründung dafür, hierin ein wünschenswertes 
Merkmal zu erblicken, fußt auf dem Gedanken, daß eine derartige Schätz- 
funktion zunehmend genauere Werte liefere. Doch hier muß man sich wie- 
der daran erinnern, daß die Konsistenz eine A/^xeigenschaft ist: Eine 
nichtkonsistente Schätzfunktion kann innerhalb einer sehr langen Zeit- 
spanne — „sehr lange“ im praktisch-menschlichen Sinn — zunehmend ge- 
nauere Werte liefern; und umgekehrt kann eine konsistente Schätzfunktion 
in bezug auf menschliche Zeitspannen in dieser Hinsicht versagen. Auf den 
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long-run, welcher im mathematischen Konvergenzbegriff implizit enthalten 
ist, kann man mit sachlicher Berechtigung (und nicht nur wie im Abschnitt 1 
mit subjektiver Berechtigung) den Ausspruch von Lord Keynes anwenden: 
“In the long run we are all dead”. Das “we” braucht dabei gar nicht ver- 
standen zu werden im Sinn von „wir Lebenden“. Es läßt sich interpretieren 
als : „Wir und alle unsere Nachkommen“. 

Eine häufig angewandte Methode der Punktschätzung wird von der sog. 
Minimaxtheorie geliefert, die von A. Wald systematisch ausgebaut worden 
ist 85 . Nach der hier vertretenen Auffassung gehören zum Anwendungsbe- 
reich dieser Methode eigentlich nicht die Schätzungen im theoretischen 
Sinn, sondern die Schätzhandlungen. Denn Wald konzipierte seine Theorie 
ausdrücklich als Bestandteil der Entscheidungstheorie. Trotzdem können 
wir auf dieses Verfahren zu sprechen kommen, da sich die theoretische und 
die praktische Komponente relativ leicht voneinander isolieren lassen und 
nach Abstraktion von der letzteren die erstere übrigbleibt. 

Schematisch könnte man den Grundgedanken dieser Theorie dadurch 
charakterisieren, daß man sagt, sie gipfle in der Empfehlung, Schätzungen 
auf solche Weise vorzunehmen , daß das Maximum der möglichen Fehlererwartungen 
( Irrtumserwartungen ) minimalisiert wird. (Im technischen Aufbau der Theorie 
wird mit einer Minimax-Schätzfunktion operiert.) 

Um dieser Empfehlung konkrete Gestalt zu geben, wird ein Maß für 
den Fehler (Irrtum) vorausgesetzt. Der entscheidungstheoretische Gesichts- 
punkt kommt dann dadurch zur Geltung, daß die möglichen Fehler ge- 
wogen werden, mit den entstehenden Verlusten als Wägungskoeffizienten. In 
dieser weiten Fassung dient die Theorie zur Lösung praktischer Probleme, 
nämlich zum Vollzug adäquater Schätzhandlungen. Was danach als bester 
Schätzwert ausgezeichnet wird, ist abhängig von zwei Konventionen, deren 
jede eine eigene Dimension von Variationsmöglichkeiten zuläßt: erstens 
davon, wie der Fehler gemessen wird; zweitens von der Art der Gewinn- 
und Verlustkalkulation. Wenn wir von dieser zweiten Komponente ab- 
sehen, also auf die wertmäßigen Wägungen der Fehler verzichten, gelangen 
wir zum theoretischen Kern dieser Methode, von dem ganz unabhängig von 
entscheidungstheoretischen Gesichtspunkten Gebrauch gemacht werden 
kann. 

Für die Fehlermessungen soll eine zweistellige Funktion F(fi, s) dienen, 
welche die folgende Adäquatheitsbedingungen erfüllt : Wenn der wahre 
Wert von # ist, so soll für alle Schätzwerte — sf&f) und s 2 — sßd'f) 
mit / d , w 5g s x < s 2 oder s 2 ^ ^ die Relation F{d' m s^j ^ F(fi m regelten. 

Eine derartige Schätzfunktion heiße einfache Fehlerfunktion. 

Wie Hacking hervorhebt, liefert für eine große Zahl klassischer Pro- 
bleme die jeder einfachen Fehlerfunktion entsprechende Minimax-Schätz- 

86 Vor allem in seinem Werk [Decision Functions]. 
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funktion eine zulässige Funktion im Sinn von D10 — 4 unten. Die gewählte 
Fehlerfunktion gibt somit für diese Fälle eine mit seinen Grundvorstellun- 
gen im Einklang stehende Lösung des Schätzproblems, da durch sie genau 
eine zulässige Schätzfunktion ausgewählt wird. 

Nun steht die Theorie von Wald im Widerspruch zu gewissen Vorstel- 
lungen anderer Autoren. Dies gilt vor allem von R. A. Fisher. Fisher hat 
zwar gegen Walds Theorie nicht polemisiert; denn seine Arbeiten er- 
schienen wesentlich früher. Doch kann man die Unvereinbarkeit unschwer 
feststellen. Für Fisher ist ein Schätzwert eine exakte und konzentrierte Zu- 
sammenfassung dessen, was in den empirischen Daten für die Beurteilung 
des wahren Wertes einer Größe relevant ist. Schätzwerte müssen nach seiner 
Auffassung daher insbesondere gegenüber allen funktionellen Transforma- 
tionen invariant sein 86 . Gegen diese Invarianzforderung aber verstößt die 
Minimax-Theorie. 

Aus diesem Grunde hat Carnap die Minimax-Theorie expressis verbis 
zurückgewiesen 87 . Sein Grundgedanke läßt sich in den Grundzügen folgen- 
dermaßen darstellen: Wenn erstens zwei Größen addiert werden dürfen; 
wenn zweitens der (unbekannte) Wert der einen Größe a und der (unbe- 
kannte) Wert der anderen Größe b ist und ihre Summe c ergibt; und wenn 
drittens c bekannt ist, so muß die Summe der Schätzwerte von a und b den 
Wert c liefern. Diese Bedingung heiße die Additivitätsforderungfür Schätzun- 
gen . Diese Forderung gilt nicht für die Minimax-Theorie : Zwar wissen wir, 
daß die Chance von Kopf plus die von Schrift für eine vorgegebene Münze 
zusammen den Wert 1 ergeben; die Summe ihrer Minimax-Schätzwerte 
ist dagegen von 1 verschieden. Carnap ist der Überzeugung, daß dieses 
Resultat inadäquat ist und derartige Schätzungen daher zu verwerfen sind. 

Hier tritt allerdings die Frage auf, ob der Appell an die Intuition durch 
ein überzeugendes Argument ersetzt werden kann. Wenn nicht, so könnte 
man umgekehrt das intuitive Argument, das vielleicht nur prima facie als 
plausibel erscheint, anzweifeln, die Additivitätsforderung preisgeben und 
weiter an der Minimax-Theorie festhalten. 

Zum Abschluß noch eine Bemerkung zur Intervallschätzung^ wie sie in 
lO.c, (V) geschildert wurde. Wie man unmittelbar erkennt, handelt es sich 
nur um mathematische Umformulierungen von Wahrscheinlichkeitsaus- 
sagen, die als bereits verfügbar vorausgesetzt werden. Da es sich dabei um 
statistische Hypothesen handelt, muß die Frage, wie man diese zu beurteilen 
hat, bereits beantwortet sein, bevor man zu Aussagen über Vertrauensinter- 
valle usw. gelangt. Was neu hinzutritt, sind lediglich mathematisch beweisbare 
Relationen zwischen diesen Werten . Anders verhielte es sich erst, wenn ein 
Intervall irgendwie vorgegeben wäre und die Frage aufgeworfen würde, 
wie gut die Hypothese gestützt sei, daß der zu schätzende Parameter in 

86 So etwa in [Statistical Methods], S. 140. 

87 [Continuum], S. 81 ff. 
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dieses Intervall hineinfällt. Dann handelte es sich wieder um die Güte im 
Sinn der Stützung. Die erkenntnistheoretische Situation wäre damit analog 
der bei der Punktschätzung, natürlich mit der Abschwächung der Forde- 
rung, den Nagel auf den Kopf zu treffen, zu der Forderung, sich mit einem 
ungefähren Treffer zu begnügen. 

lO.i Ein Präzisierungsversuch des Begriffes der besser gestützten 
Schätzung. An zwei Stellen (lO.d und Zusammenfassung von lO.e) wurde 
hervorgehoben, daß der wissenschaftstheoretisch wichtige Sinn von „gute 
Schätzung“ der ist, in dem man erstens unter Schätzung eine theoretische 
Schätzung (und nicht eine Schätzhandlung) versteht und zweitens unter 
„gut“ eine vernünftige, d. h. gut gestützte Hypothese über den wirklichen 
Wert. Bedenkt man weiter, daß Schätzungen im engeren Sinn (lO.g) sta- 
tistische Hypothesen darstellen, so könnte man leicht zu der Annahme ge- 
langen, daß hier überhaupt kein wissenschaftstheoretisches Spezialproblem 
vorliegt: Alles, was über die Stützung und Prüfung von statistischen Hypo- 
thesen zu sagen ist, findet auf Schätzungen als speziellen statistischen Hypo- 
thesen Anwendung. 

Doch so einfach liegen die Dinge nun wieder nicht! Approximativ 
können wir als unterscheidendes Merkmal vorerst die Wendung „nahe 
beim wahren (wirklichen) Wert“ benützen. Statistische Hypothesen sind 
Verteilungshypothesen. Wenn man solche Hypothesen beurteilt, so ist von 
der Nähe zum wahren Wert nirgends die Rede. Die Hypothesen sind wahr 
oder falsch und aufgrund der verfügbaren Daten besser oder schlechter ge- 
stützt. Bei theoretischen Schätzungen muß dagegen auch dann auf die Rela- 
tion von Schätzwert und wahrem Wert Bezug genommen werden, wenn man 
kein Gütekriterium im absoluten Sinn sucht, sondern nur gut gestützte 
Schätzungen anstrebt : es müssen gute Gründe für die Annahme vorliegen, 
daß der Schätzwert nahe beim wahren Wert liegt. 

Um zeigen zu können, daß dies zu neuen Problemen führt, versuchen wir 
zunächst eine naheliegende Präzisierung: # sei der zu schätzende Para- 
meter. (Der Leser denke am besten an den Parameter einer Binomialver- 
teilung, damit er einen möglichst einfachen Modellfall zur Hand hat.) / d' w 
sei der wahre Wert; s^fi) und s 2 (ff) seien zwei verschiedene Schätzwerte. 
Es möge weiter geglückt sein, ein kleines e-Intervall um zu finden — 
wir nennen ein solches Intervall ein Fehlerintervall — , welches im folgenden 
Sinn eine Differenzierung zwischen den beiden Schätzungen ermöglicht: 
Die Hypothese h l9 daß im ^-Intervall von liegt (d. h. daß gilt: 
\d , w — s x (#) | < e), ist aufgrund der Daten besser gestützt als die Hypothese 
h 2 , daß s 2 (fi) in diesem ^-Intervall von liegt. Die beiden zur Diskussion 
stehenden Hypothesen sind statistische Hypothesen im früher erklärten all- 
gemeinen Sinn (nämlich Erstglieder von komplexen kombinierten statisti- 
schen Aussagen, vgl. 5.a, S. 86): Jede von ihnen faßt eine Klasse von Ver- 
teilungshypothesen zusammen; die (unendlichen) Klassen sind durch eine 
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einschränkende Bedingung über die in den Hypothesen vorkommenden 
Parameter ($) bzw. s 2 (fl) festgelegt. Damit wird der gesamte frühere Begriffs - 
apparat anwendbar . Wir könnten daher jetzt weiter definieren: 

Die Schätzung sfff) ist besser als die Schätzung s 2 (ß) gdw gilt: h 1 ist 
besser gestützt als h 2 - 

Doch dies wäre unbefriedigend. Angenommen nämlich, die verfügbaren 
Daten würden uns außerdem die folgende Information liefern: Wenn der 
Wert s x (ff) nicht sehr nahe bei liegt, so ist er von $ w sehr weit entfernt; 
der Wert s 2 (ß) kann dagegen nicht sehr weit von § w entfernt liegen. Die 
Auswertung des relevanten Teiles der Daten kann somit zu einem Ergeb- 
nis führen, welches sich umgangssprachlich ungefähr so ausdrücken läßt: 
„Es liegen gute Gründe für die Annahme vor, daß s x (#) näher bei ^ liegt 
als s 2 (#) bei & w liegt. Doch ist dies nicht sicher. Genauer gilt: sf§) liegt 
meist in dem festen £-Intervall um j 2 ($) liegt dagegen zwar nicht meist 
in diesem Intervall, jedoch immer im 7 e-Intervall um & w . Von ^ (#) gilt das 
letztere nicht; wenn es außerhalb des g-Intervalls um liegt, so liegt es so- 
gar immer weit außerhalb des 7 e-Intervalls um / & w “ Dies ist ein wirkliches 
Dilemma; denn vermutlich kommt die erste Schätzung dem wahren Wert 
näher als die zweite; sollte die erste ihm aber nicht näher kommen, so liegt 
sie vom wahren Wert viel weiter entfernt als die zweite. 

Dasselbe Problem läßt sich auch etwas präziser in der Sprache der Schätzfunk- 
tionen formulieren: Gegeben seien zwei verschiedene Fehlerintervalle e 1 und e 2 
mit £i < e 2 ; fi und / 2 seien zwei Schätzfunktionen für denselben Parameter #. f ± 
möge öfter Schätzwerte innerhalb des ^-Intervalls von liefern als / 2 ,/ 2 hingegen 
öfter Schätzwerte innerhalb des e 2 -Intervalls von als f x (z. B. 85% der /j- Werte 
liegen innerhalb des Ei-Intervalls, 10% aber außerhalb des £ 2 -Intervall ; 94% der 
/ 2 -Werte liegen innerhalb des e 2 -Intervalls, dagegen nur 79% auch innerhalb des 
Ei-Intervalls). 

Es dürfte nicht möglich sein, eine generelle Antwort auf die Frage zu 
finden, welche Schätzung hier besser ist. Damit scheint aber auch der Begriff 
der guten Schätzung selbst %u verfallen. Man darf natürlich nicht die Konsequenz 
ziehen: „Dieses Dilemma betrifft nur den Begriff der gut gestützten Schät- 
zung“. Denn das Problem ist invariant gegenüber der Art und Weise der 
Einführung des Begriffs der Güte; es ist nur mit dem Gedanken der Nähe 
beim wahren Wert verzahnt. 

Hacking versucht, 5 zu retten, was zu retten ist" und diese Schwie- 
rigkeit teilweise dadurch zu beheben, daß er einen neuen Begriff „gleich- 
mäßig besser als“ einführt. Hierin wird nicht von vornherein ein festes 
Fehlerintervall ausgezeichnet, sondern es wird über alle möglichen Fehler- 
intervalle quantifiziert. Zum Zwecke einer einfachen Verallgemeinerung 
wird nicht mehr vorausgesetzt, daß die Größe des unteren Fehler int er valls 
mit der Größe des oberen Fehlerintervalls £ 2 zusammenfällt. Wir nehmen 
eine Teilformalisierung der Definition vor. 
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Es sei 0 ein statistischer Parameter, / d , w sei sein wahrer Wert; s^ff) und 
s 2 fl) seien Schätzwerte von 0. e sei das zugrundeliegende statistische Da- 
tum. 

D10 — 1 Der Schätzwert s ± fl) ist aufgrund von e mindestens ebenso gut 
wie der Schätzwert s 2 fl) gdw A A [e stützt die Hypothese, 

e 2 ^0 

daß — ^ d'yj — s ± fl) ^ e 2 mindestens ebenso gut wie die 

Hypothese, daß — < d'yj — s 2 fl) ^ s 2 ] 

D10 — 2 Der Schätzwert s ± fl) ist aufgrund von e gleichmäßig besser 
als der Schätzwert s 2 (fl) gdw der Schätzwert sßfl) aufgrund 
von e mindestens ebenso gut ist wie der Schätzwert s 2 fl), 
aber s 2 (fl) nicht mindestens ebenso gut wie sßfl). 

Für den Fall, daß ein quantitativer Stützungsbegriff p zur Verfügung gestellt 
werden könnte, wie dies nach Abschnitt 13 für bestimmte Fälle möglich ist, 
könnte das Definiens der zweiten Definition wiedergegeben werden durch : 

pi-Ei <: — s x fl) ^ £ z \e)> Pi-Ei g s 2 (fl) ^ e 2 | e), 

mit der zusätzlichen Forderung, daß für wenigstens ein Paar e l9 e 2 die strenge Un- 
gleichung zu gelten habe. 

D 10 — 3 Ein Schätzwert s fl) ist zulässig gdw kein anderer Schätz- 
wert gleichmäßig besser ist als s fl). 

D 10 — 4 Eine Schätzfunktion / heißt zulässig gdw jeder mittels / ge- 
wonnene Schätzwert zulässig ist. 

Unter Verwendung dieses Begriffs läßt sich eine frühere Behauptung begrün- 
den: Wenn es unter Schätzfunktionen mit Nor mal Verteilung eine Schätzfunktion 
mit größter Effizienz (minimaler Varianz) gibt, dann ist nur diese zulässig: ihre 
Schätzwerte sind gleichmäßig besser als diejenigen, welche mit den anderen 
Schätzfunktionen erzielt werden. 

Bei all diesen Begriffen handelt es sich um sinnvolle Übertragungen des 
Begriffs der Stützung auf den Fall der Schätzungen. Allerdings ist es keines- 
wegs evident , daß ein zulässiger Schätzwert in einer bestimmten Situation das beste 
ist . Die Zulässigkeit ist vielmehr ein ziemlich schwaches Merkmal. 

Hier ist der Ort, um einige Bemerkungen zu R. A. Fishers Methode 
der Maximum-Likelihood anzufügen. Fishers Ideen haben zweifellos 
Pate gestanden bei Hackings Theorie der Likeühood-Stützung und des 
Likelihood-Tests von statistischen Hypothesen. Doch bestehen zwei 
wesentliche Unterschiede : Erstens hat Fisher nur beansprucht, eine 
Methode der Schätzung zu entwickeln, während Hacking den Likelihood- 
Begriff zu einem zentralen Begriff der Beurteilung statistischer Hypothesen über- 
haupt macht. Zweitens hält Fisher zum Unterschied von Hacking die 
beiden Gesichtspunkte: den der Optimalität auf lange Sicht und den der 
guten Stützung, nicht scharf auseinander. Vielmehr verschmelzen bei 
Fisher diese beiden Gesichtspunkte in einer etwas merkwürdigen Art und 




212 



Die logischen Grundlagen des statistischen Schließens 



Weise. Wie bereits am Schluß von lO.g bemerkt, empfiehlt Fisher, den 
Parameter der aufgrund der Daten am besten gestützten Hypothese als 
Schätzwert zu wählen. Insofern also steht tatsächlich der Gesichtspunkt der 
guten Stützung im Vordergrund. Doch dies ist nur die eine Seite der Me- 
daille. Auf der anderen Seite nämlich arbeitet Fisher, so wie die meisten 
übrigen Statistiker, mit Schätzfunktionen und rechtfertigt sein Verfahren 
durch Berufung auf A/^reigenschaften (asymptotische Eigenschaften) 
dieser Funktionen. Ja er war sogar der erste, der auf die Wichtigkeit dieser 
Eigenschaften, vor allem des Merkmals der Konsistenz ;, hinwies 88 . Maximum- 
Likelihood-Schätzfunktionen sind konsistent; außerdem konvergiert die 
Verteilung von Schätzungen, die man mit ihnen erzielt, nachweislich gegen 
die Werte einer envartungstreuen Schätzfunktion (nämlich gegen eine Normal- 
verteilung), die überdies von größter Effizienz ist 89 . Alles, was in lO.h an 
kritischen Bemerkungen zur Optimalität auf lange Sicht vorgetragen wurde, 
läßt sich hier wiederholen, allerdings nicht für den Zweck einer Kritik an 
Fishers Theorie, sondern für eine Kritik des von ihm gewählten Rechtfertigungs- 
Verfahrens. 

Beweisen lassen sich allerdings zwei Dinge: Erstens, daß Likelihood-Schätz- 
funktionen eine Konvergenz der Schätzwerte^*# zulässige Schätzwerte garantieren. 
Zweitens, daß bei Vorliegen einer einfachen Dichotomie, sowie überall dort, wo 
das Fiduzialargument anwendbar wird, diese Schätzfunktionen zulässig sind. Aber 
all das genügt nicht: Konvergenz gegen Zulässigkeit ist schwächer als Zulässig- 
keit selbst ; und das, was zulässig ist, braucht nicht zugleich das Beste zu sein. 

10 . ] Ist die Schätzungstheorie von Savage das Analogon zur Test- 
theorie von Neyman-Pearson? Hacking versucht, seine Kritik am test- 
theoretischen Begriffsapparat von Neyman und Pearson auf die Schätzungs- 
theorie von Savage zu übertragen, da nach seiner Auffassung zwischen 
beiden Theorien eine weitgehende Parallele besteht 90 . Nun knüpft Savage 
zwar an die personalistische Interpretation der Wahrscheinlichkeit von 
de Finetti an und steht somit philosophisch auf einem ganz anderen Boden 
als die Objektivisten Neyman und Pearson (vgl. dazu Abschnitt 12.a). 
Doch läßt sich im gegenwärtigen Kontext vom philosophischen Hinter- 
grund abstrahieren und die Theorie von Savage so behandeln, als sei sie 
eine objektivistische Theorie. 

A sei die Klasse der möglichen Verteilungen, die im statistischen Da- 
tum ins Auge gefaßt werden. Wir benötigen ein neues Symbol, um die 
Behauptung ausdrücken zu können, daß ein bestimmtes Element dieser 
Klasse die wahre Verteilung ist. Da Verteilungshypothesen spezielle Fälle 

88 Vgl. R. A. Fisher, [Mathematical Foundations], S. 316; [Statistical 
Methods], S. 141. 

89 Eine genauere mathematische Analyse findet sich bei A. Wald [Maximum 
Likelihood Estimate], S. 595—601. 

90 Vgl. Hacking, a. a. O., S. 179 f. Die kritisierte Theorie findet sich in 
Savage, [Foundations], S. 224ff. 
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von Aussagen sind, können wir mit 38 als Klasse der wahren Aussagen den 
Satz: „D ist die wahre Verteilung“ abkürzen durch: „D £ 38“. Den 
Gegenstand der Schätzung bilde ein einfacher Parameter $. Jeder Ver- 
teilung D entspricht der Parameter Für D £ 38 fällt somit #£> und '& w 
zusammen. Zwecks größerer Suggestivität verwenden wir für die formale 
Definition das erste Symbol und nur für die intuitive Erläuterung das zwei- 
te. Q sei wieder der Stichprobenraum. 

Der Grundgedanke von Savage läßt sich nun inhaltlich folgendermaßen 
ausdrücken : Eine Schätzfunktion f x ist mindestens ebenso gut wie eine Schätz- 
funktion f 2 gdw für jede Verteilung und für jedes Fehlerintervall e die 
relative Häufigkeit der von f x gelieferten Schätzwerte, welche innerhalb des 
e-Intervalls um liegen, auf lange Sicht mindestens ebenso groß ist wie die 
relative Häufigkeit der von / 2 gelieferten Schätzwerte, welche in der g-Um- 
gebung von $ w liegen. Gilt dasselbe nicht, wenn man f x und f 2 vertauscht, 
so ist f x besser als / 2 . 

Die Häufigkeit auf lange Sicht geben wir durch den formalen Begriff 
der Chance W wieder; das Fehlerintervall verallgemeinern wir ebenso wie 
in den obigen Definitionen. Für „mindestens ebenso gut im Sinn des Kri- 
teriums von Savage“ schreiben wir „mindestens S-gleich“; analog ist der 
Ausdruck „S-besser“ zu verstehen. 

D 10 — 5 f x ist mindestens S-gleich mit f 2 gdw 

AB AD Ae x Ae 2 {D £ 38 -> [W(- £l ^ -fi iß) ^ £ 2 ) 
Beo DeA e 2 ^>0 

^ IF(- £l <; <; £,)]} 

D 10 — 6 f x ist S-besser als f 2 gdw f x mindestens S-gleich ist mit / 2 , nicht 
jedoch f 2 mindestens S-gleich ist mit f v Diese Bedingung ist 
genau dann erfüllt, wenn in D5 zusätzlich verlangt wird, daß 
die scharfe Relation > zwischen den Chancen mindestens ein- 
mal, d. h. für ein e ly D usw. gilt). 

Wenn es zu einer Schätzfunktion f keine S-bessere gibt, so werde f 
S-optimal genannt. 

Anmerkung, Hacking versucht eine andere Formalisierung. Danach wird 
Ereignissen von der Art, daß D die wahre Verteilung ist , eine statistische Wahr- 
scheinlichkeit W D zugeordnet (vgl. [Statistical Inference], S. 180). Nun ist aber 
eine Verteilung selbst eine statistische Hypothese, in welcher der Begriff der sta- 
tistischen Wahrscheinlichkeit vorkommt. Damit die fragliche Zuordnung über- 
haupt einen Sinn ergibt, müßte daher zunächst entweder eine Hierarchie von sta- 
tistischen Wahrscheinlichkeiten konstruiert werden oder es müßten verschach- 
telte 4 Wahrscheinlichkeitsaussagen in ihrer Bedeutung erklärt werden, etwa in 
Analogie zu Modalitäten logischer Systeme mit ineinander geschachtelten Modali- 
tätsoperatoren. Da Hacking keine Andeutung darüber macht, wie derartige 
Iterationen von statistischen Wahrscheinlichkeiten zu deuten sind, bleibt seine 
Interpretation der Definition von Savage im Dunkeln. 

Die obige Definition hat allerdings die Konsequenzen, daß die Bedingung des 
Definiens für alle nichtwahren Verteilungen trivial erfüllt ist. Da die Erfüllung aber 




214 



Die logischen Grundlagen des statistischen Schließens 



für alle Elemente von A verlangt wird und die wahre Verteilung nach Annahme 
darin enthalten ist, führt dies zwar nicht direkt zu einer Inadäquatheit. Doch 
könnte die Auffassung vertreten werden, daß eine adäquate inhaltliche Wieder- 
gabe der Intention die Ersetzung von durch ein Symbol für subjunktive Kon- 
ditionalsätze erforderlich machte, da für jedes D aus A die Möglichkeit seiner Wahr- 
heit ins Auge gefaßt werden muß. Vielleicht war es dieser Umstand, der Hacking 
bewogen hat, neue Ereignisse von der Art 9 D ist die wahre Verteilung 4 ins Auge 
zu fassen und die Iteration statistischer Wahrscheinlichkeiten in Kauf zu nehmen. 

Der Vergleich mit den Definitionen Dl ff. zeigt deutlich eine Analogie 
zwischen der Familie der HACKiNGschen Begriffe und der von Savage ein- 
geführten Begriffsfamilie. Der Unterschied ist jedoch ebenso deutlich: Bei 
Hacking fußt alles letztlich auf dem Begriff der besseren Stützung von sta- 
tistischen Hypothesen , bei Savage hingegen wird eine Schätzfunktion f 
gegenüber den anderen dadurch ausgezeichnet, daß sie den wahren Parameter 
im Durchschnitt besser approximiert als die übrigen. Wiederum sind wir mit 
dem Gegensatz zweier Gütebegriffe konfrontiert, der Güte im Stützungs- 
sinn und der Optimalität auf lange Sicht. 

Hacking gibt ein einfaches Beispiel dafür, daß eine Schätzfunktion f x 
S-besser ist als eine andere Funktion / 2 , trotzdem aber für gewisse Beob- 
achtungsresultate B fßB) einen vernünftigen Schätzwert liefert, f ± (B) 
hingegen einen absurden. Es handelt sich um eine Binomialverteilung mit 
einer einfachen Dichotomie, wie z. B. beim Münzwurf. Man beachte, daß 
in diesem Fall die ganze Verteilung bereits bekannt ist, wenn man nur eine 
elementare statistische Aussage kennt, z. B. W(K) — r. A enthalte nur zwei 
Verteilungen; nach der ersten ist die Chance eines Erfolges bei einem ein- 
maligen Versuch an der Anordnung gleich 0,1 ; nach der zweiten ist diese 
Chance gleich 0,9. Die beiden Schätzfunktionen f x und / 2 geben u. a. eine 
Vorschrift darüber, wie der Parameter der Binomialverteilung zu schätzen 
sei, wenn die Zahl der Erfolge bei fünf Versuchen bekannt ist. Die zweite 
und dritte Spalte zeigen die Schätzwerte an: 



Zahl der Erfolge bei fünf Versuchen (z. B. Zahl 
der Resultate Kopf bei fünf aufeinanderfolgenden 
Münz würfen) 




fz 


0 


0,9 


0,1 


1 


0,1 




2 


0,1 




3 


0,9 




4 


0,9 


0,9 


5 


0,9 


0,9 



f x ist S-besser als / 2 . Angenommen nämlich, der wahre Parameterwert 
sei 0,9. Dann ist die Chance, daß 3 oder 4 oder 5 Erfolge beobachtet wer- 
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den, größer als die Chance, daß 1 oder 4 oder 5 Erfolge beobachtet werden. 
Angenommen, der wahre Parameter sei 0,1. Dann ist die Chance, daß 
1 oder 2 Erfolge beobachtet werden, größer als die Chance, daß 0 oder 2 
oder 3 Erfolge beobachtet werden. In beiden Fällen gilt also die starke Un- 
gleichung. Falls jedoch bei 5 Würfen mit einer Münze kein einziger Kopf- 
wurf beobachtet wird, ist es absurd, die Wahrscheinlichkeit von Kopf mit 
0,9 zu schätzen. Gerade dies schreibt jedoch f x vor. 

Die Analogie zur NEYMAN-PEARSON-Theorie ist die folgende: Solange 
das statistische Datum nur eine Information über die Klasse der möglichen 
Verteilungen, jedoch keinen Beobachtungsbefund enthält, kann man sagen, die 
Hypothese sei besser gestützt, daß f x einen besseren Schätzwert liefere als 
/ 2 . Wenn jedoch ein Beobachtungsbefund hinzutritt, gilt diese Behauptung 
nicht mehr unbedingt. Das eben angeführte spezielle Resultat (0 Erfolge) 
bildet ein Gegenbeispiel hierfür. 

Analog wie wir früher davor warnten, zu einem ungerechten Urteil über 
die Theorie von Neyman-Pearson zu gelangen, muß auch jetzt gesagt 
werden, daß dieses Beispiel nicht als Kritik an der Theorie von Savage dienen 
soll. Denn keine der beiden Schätzfunktionen f ± und / 2 ist S-optimal. 

Analog wie bei der Testtheorie soll dagegen auch dieses Beispiel 
dreierlei lehren: Erstens daß die beiden Gütebegriffe tatsächlich auseinander - 
klaffen ; zweitens daß das y was bei einer Apriori-Beurteilung als sinnvoll erscheint , 
bei einer Aposteriori-Beurteilung unvernünftig sein kann\ drittens daß der Güte - 
begriff im Stützungssinn wichtiger ist als der der langfristigen Optimalität . 

Zwar führen beide Beurteilungsmethoden für verschiedene klassische 
Spezialfälle zu demselben Resultat; doch ist allein dies entscheidend, daß sie 
nicht immer zu demselben Resultat führen. Während das obige elementare 
Beispiel den bereits ausgedrückten Gedanken nahelegt, dem mittels des 
Stützungsbegriffs definierten Gütebegriff den Vorzug zu geben, wird man 
im allgemeinen Fall vorsichtiger sein müssen und nur folgendes sagen 
können: Das Problem der Schätzung ist wissenschaftstheoretisch unterbestimmt , 
solange man sich nicht für einen der beiden Gütebegriffe oder für weitere Gütebegriffe 
entschieden hat . 

Diese Feststellung wird uns, im Verein mit einer analogen Bemerkung 
am Ende von Abschnitt 9, dazu führen, in 11. c sowohl für den Stützungs- 
begriff als auch für den Testbegriff eine weitere Relativierung vorzuschlagen : 
die ausdrückliche Bezugnahme auf eine Stüt^ungs- b%w. eine Testtheorie . Dies stellt 
eine wesentliche Abweichung gegenüber der Methode von Hacking dar. 

11. Kritische Betrachtungen zur Likelihood-Stützungs- 
und -Testtheorie 

ll.a Ist der Likelihood-Test schlechter als nutzlos? Die Begriffe 
Umfang und Macht können zwar, wie bemerkt, auf jeden Test angewendet 
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werden; sie spielen aber in der Likelihood-Testtheorie selbst keine Rolle. 
Insbesondere wird auf die Relation dieser beiden Größen hier keine Rück- 
sicht genommen. Gerade dies könnte aber den Anlaß für eine Kritik ab- 
geben. Der im Beispiel von 9.e benützte Likelihood-Test hat eine Macht, 
die kleiner ist als sein Umfang. (Wir erinnern an die Bedeutung dieser Aus- 
sage: die Wahrscheinlichkeit, die Hypothese fälschlich (im Wahrheitsfall) 
zu verwerfen, ist größer als die Wahrscheinlichkeit, sie korrekt (im Falsch- 
heitsfall) zu verwerfen). Derartige Tests werden von Neyman und Pearson 
als schlechter denn nutzlos (“worse than useless”) bezeichnet. 

Das etwas verblüffende Argument zugunsten dieser Behauptung lautet : 
Man kann in einem derartigen Fall stets einen geeigneten Zufallsmechanismus ange - 
ben> der einen besseren Test liefert. Im Fall der Hypothese h 0 von 9.e würde der 
Test folgendermaßen konstruiert werden: Man suche eine Anordnung X 
auf, bei welcher eine bestimmte Versuchsart mit einer Chance von 1/10 zu 
dem Resultat a führt (alles weitere ist irrelevant). Die Testregel lautet: 
„Verwirf h^ wenn sich a ereignete Dieser Test hat denselben Umfang wie der 
Likelihood-Test, aber eine größere Macht; denn Umfang und Macht sind 
hier beide gleich 1/10, während die Macht bei jenem Test nur 0,09 betrug. 
Die Wahrscheinlichkeit, h 0 zu verwerfen, ist hier sowohl im Wahrheitsfall 
als auch im Falschheitsfall gleich 1/10. 

Diese Kritik ist vom inhaltlichen Standpunkt gesehen jedoch zirkulär: 
Sie setzt bereits voraus, daß Umfang und Macht geeignete Kriterien der 
Hypothesenbeurteilung liefern. Der zweite Test wird ja nur deshalb besser 
genannt, weil er bei gleichem Umfang eine größere Macht besitzt als der 
erste. Wir haben gesehen, daß diese Auffassung zu einem Vorurteil wird, 
wenn bereits Resultate vorliegen. Hier zeigt sich wieder die Wichtigkeit der 
Unterscheidung zwischen: , Wetten vor dem Vorliegen eines Befundes* und 
,Wetten nach Vorliegen eines Befundes*. Sollte noch kein Befund vorliegen, 
so wäre es in der Tat zweckmäßiger, die Entscheidung für oder gegen h 0 
vom Ausgang des Versuchs am eben beschriebenen Zufallsmechanismus 
abhängig zu machen, obwohl dieser paradoxerweise mit der Hypothese 
in keinerlei Zusammenhang steht. Falls hingegen ein Resultat vorliegt, ist 
der frühere Likelihood-Test dem jetzigen Zufallstest natürlich vorzuziehen: 
h 0 ist genau dann zu verwerfen, wenn ein Resultat k > 0 herauskommt, und 
nicht, wenn der neue Mechanismus a liefert. Die Verwerfung auch diesmal 
vom Zufallsmechanismus abhängig zu machen, wäre vollkommen läppisch. 

Daß der frühere Likelihood-Test nutzlos genannt wird, ist ein Symptom 
für die Überbewertung der Apriori-Beurteilung von Hypothesen gegenüber der viel 
wichtigeren Aposteriori-Beurteilung. Umfang und Macht sind nur für die erste 
Beurteilungsart adäquate Hilfsmittel, nicht aber für die letztere. Der 
erste Einwand gegen das Likelihood- Prinzip ist also nicht überzeugend. 

(Hacking gibt a. a. O., S. 101 ff., eine systematische Übersicht über die 
möglichen Fälle von Verwerfungen, je nachdem ob Befunde vorliegen oder 
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nicht, ob die Befunde vollständig oder nur unvollständig ausgewertet wer- 
den, ob nur rein theoretische Gesichtspunkte oder darüber hinaus auch 
ökonomische Gesichtspunkte maßgebend sind.) 

ll.b Das Karten-Paradoxon von Kerridge. Schwerwiegender scheint 
der folgende Einwand von D. Kerridge zu sein 91 . Gegeben sei ein gut 
gemischtes gewöhnliches Kartenspiel mit 52 Karten. Der Versuch bestehe 
darin, eine Karte blind herauszuziehen; die Wahrscheinlichkeit, eine be- 
liebige Karte zu ziehen, beträgt 1/52. Es werden zwei mögliche Situationen 
unterschieden, in denen zwischen Alternativhypothesen entschieden wer- 
den muß. Zwecks besserer Vergleichsmöglichkeit schildern wir zunächst 
beide Situationen und geben erst im nachhinein den in beiden Fällen glei- 
chen Beobachtungsbefund an. 

1. Fall . Man erhält vor dem Experiment die Information, daß das Spiel 
entweder normal sei oder daß alle 52 Karten dieselben, nämlich alle Herz- 
dame sind. h Q besagt also: „das Spiel ist normal“; h A \ „alle 52 Karten sind 
Herzdame-Karten“. 

2. Fall . Vor Durchführung eines Versuchs erfährt man, daß das Spiel 
entweder normal ist oder eine von 52 möglichen Fälschungen darstellt. Jede dieser 
möglichen Fälschungen soll darin bestehen, daß ein und dieselbe Karte 
52-mal vorkommt. Die Nullhypothese ist hier dieselbe ; die Alternativhypo- 
these besteht in einer Disjunktion von 52 einfachen Fälschungshypothesen 
(„alle Karten sind i^zrö-Einsen“ etc.). 

Man macht nun einen Zug und erhält Herzdame. Angenommen nun, die 
folgende Art von inhaltlicher Überlegung wird als überzeugend angesehen 
(da diese Überlegung nur zur Kritik benützt wird, sehen wir von jedem 
Formalisierungsversuch ab) : Im ersten Fall ist das gewonnene Datum ein 
sehr deutliches Indiz dafür, daß man es mit einem gefälschten Spiel zu tun hat. 
Im zweiten Fall hingegen erhält man aus dem Beobachtungsdatum nur das 
schlüssige Resultat, daß 51 (der insgesamt 53) Möglichkeiten nicht in Frage 
kommen (so daß sich die Klasse der Möglichkeiten auch im zweiten Fall 
auf zwei der Alternativen reduzieren wird; die 51 ausgeschlossenen Mög- 
lichkeiten betreffen nur Fälle von Fälschungen). Dagegen erhält man aus 
diesem Beobachtungsbefund keinen Hinweis darauf ‘ ob das Spiel normal oder 
gefälscht ist . 

Wenn man diese Überlegung akzeptiert, so scheint sie eine Verwerfung 
der Likelihood-Regel im Gefolge zu haben. Um dies rasch einzusehen, 
hat man nur folgendes zu bedenken: 

(a) Nach Vornahme des Experimentes bleiben in beiden Fällen nur ZF ei 
einfache Hypothesen übrig ; 

91 Kerridge hat dieses Paradoxon Hacking brieflich mitgeteilt. Hacking 
referierte darüber in der Fußnote seiner Besprechung eines Buches von I. Levi 
in Synthese 17 (1967), S. 448. 
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(b) diese übrigbleibenden Hypothesen, zwischen denen eine Entschei- 
dung zu treffen ist, sind in beiden Fällen genau dieselben ; 

(c) das Beobachtungsergebnis ist ebenfalls in beiden Fällen genau dasselbe . 

Trotzdem gelangen wir aufgrund des obigen Raisonnements in beiden 

Fällen zu ganz anderen Ergebnissen. (Es ist zu vermuten, daß jemand, 
dem man den Sachverhalt nur in abstracto, d. h. durch Schilderung von 
(a) bis (c) sowie des Resultates, schildert, den Eindruck eines Paradoxons ge- 
winnen wird, d. h. so etwas für nicht möglich halten wird.) 

Wegen der Übereinstimmung beider Fälle in den drei genannten Punkten (a) bis 
(c) vermagjedoch eine Likelihood-Betrachtung — jedenfalls eine solche von der 
in den vorangehenden Abschnitten geschilderten Art — ^ wischen diesen bei- 
den Fällen nicht z u differenzieren. Im ersten Fall führt die Likelihood-Be- 
trachtung zu genau demselben Resultat wie die oben skizzierte inhaltliche 
Überlegung; denn auch nach der Likelihood-Regel ist h A wesentlich 
besser gestützt als h 0 (die Wahrscheinlichkeit, die angegebene Karte bei 
Richtigkeit von h A zu ziehen, ist gleich 1 ; bei Richtigkeit von h Q ist diese 
Wahrscheinlichkeit nur 1/52). Leider aber ist diese Situation für die Likeli- 
hood-Betrachtung zum Unterschied von der obigen inhaltlichen Überlegung 
im zweiten Fall genau dieselbe! Es fragt sich daher, wie die Likelihood- 
Regel modifiziert werden sollte, so daß im zweiten Fall keine Auszeichnung 
der Hypothese , ( gefälscht c gegenüber der Hypothese yiormaP erfolgt. 

Dieses Beispiel zeigt, daß die Wendung „Berücksichtigung von Alter- 
nativhypothesen“ und damit auch die hier geschilderte statistische Variante 
der eliminativen Induktionstheorie zweideutig ist. Es stellt sich nämlich 
heraus, daß die Bedeutung eines Experimentes davon abhängen kann, 
welche Hypothesen man tatsächlich ins Auge gefaßt hat, bevor man dieses Experi- 
ment durchführte . Dieser Gedanke ist implizit in Poppers Arbeiten über die 
Prüfung von Theorien enthalten. Offenbar ist es erforderlich, zwischen zwei 
Fällen zu unterscheiden, nämlich : 

(1) Berücksichtigung von Alternativhypothesen bei Beurteilung bestimmter 
Hypothesen , unabhängig davon , was der experimentelle Befund lehrt ; 

und: 

(2) Auswertung des experimentellen Befundes in Abhängigkeit von den Hypo - 
thesen , die vor Durchführung des Experimentes in Erwägung gezogen worden sind. 

(1) ist bisher berücksichtigt worden; (2) dagegen wurde vernachlässigt. 
Ist es möglich, die Likelihood-Testtheorie so zu modifizieren bzw. zu ver- 
bessern, daß auch der in (2) ausgedrückte und durch das obige Beispiel 
illustrierte Gedanke hinreichend zur Geltung kommt? Die Antwort auf 
diese Frage kenne ich noch nicht. 

11. c Die logische Struktur des Stützungsbegriffs. Die in den Ab- 
schnitten 9 und 10 angestellten Überlegungen sowie das Beispiel in ll.b 
lassen es als sinnvoll erscheinen, den Gedanken preiszugeben, daß so etwas wie 
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eine ein für alle denkbaren Situationen richtige oder adäquate Stütyungs- und Test- 
theorie existiere . 

Wir beschränken uns darauf, die Konsequenz aufzuzeigen, welche dies 
für den Stützungsbegriff hat. (Die erforderlichen Modifikationen für den 
Testbegriff werden angedeutet.) Die Stützungsrelation ist danach wesent- 
lich komplexer als sowohl die Vertreter eines qualitativen Bestätigungsbe- 
griffs (z. B. Hempel) als auch die eines quantitativen Bestätigungsbegriffs 
(z. B. Carnap) vermuteten. Nach deren Auffassung genügt ein Vergleich 
zwischen der zur Diskussion stehenden Hypothese H und den relevanten 
Erfahrungsdaten E . Der qualitative Stützungsbegriff ist danach eine zwei- 
stellige Relation S(H y E) y die inhaltlich gedeutet besagt: „die Hypothese H 
wird durch die Erfahrungsdaten E (gut) gestützt“. Der quantitative 
Stützungsbegriff ist eine zweistellige Funktion st(H y E) = r, die so zu inter- 
pretieren ist: „H wird durch E im Grad r gestützt“ (ob st die Struktur einer 
Wahrscheinlichkeit hat oder nicht, spielt jetzt keine Rolle). 

Demgegenüber schlagen wir vor, den Begriff der Stützung als etwas 
aufzufassen, das durch Einsetzung in ein fünfstelliges Relationsschema hervor- 
geht. Es sei H q eine Variable für die zu untersuchende Nullhypothese. K = 
{H ly . . ., H n } sei eine Variable für die Klasse der t(ur Diskussion stehenden 
Alternativhypothesen . B = {OH 1 , . . . , OH k } sei eine Variable für die Klasse 
der Oberhypothesen , welche die theoretische Voraussetzung (background knowledge) 
dar stellen , unter der die Prüfung erfolgt . Schließlich sei T eine Variable, welche 
über die in Frage kommenden Stützungstheorien ( Testtheorien ) läuft . 

Die fünfstellige Relation laute: Stü(H ö ; K;B;T;E). Zwecks besserer 
Verständlichkeit der umgangssprachlichen Fassung numerieren wir die 
einzelnen Punkte. Dann ist der Ausdruck zu lesen als : 

(1) Die Nullhypothese H$ ist 

(2) aufgrund der Erfahrungsdaten E 

(3) relativ zu den mit ihr rivalisierenden Hypothesen , . . . , H n (zusam- 
mengefaßt in der Klasse K) 

(4) unter den Oberhypothesen OH x , . . . , OH k (unter dem background 
knowledge B) 

(5) durch die Stützungstheorie T 

(6) die am besten gestützte Hypothese . 

Die Rolle der Erfahrung kommt in (2) zur Geltung. In dieser Hinsicht 
steht die Relation mit dem Grundgedanken des Empirismus im Einklang, 
wonach empirische Befunde über den Grad der Stützung entscheiden. 

(3) enthält ein Zugeständnis an das Prinzip des Hypothesenvergleichs . Es 
ist das Analogon zu den Grundgedanken der eliminativen Induktion. Da 
wir diesen Ausdruck vermeiden, würden wir im Testfall von eliminativem 
Verfahren sprechen, weil H Q die nach Verwerfung von H ly . . . , H n zu 
wählende Hypothese wäre. 
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In (4) wird ein Grundgedanke der Popperschen Auffassung festgehalten, 
wonach bei der Prüfung einer Hypothese immer schon ein theoretischer Rah- 
men verfügbar sein muß. In diesem Punkt kommt zugleich ein wichtiger 
Aspekt des statistischen Datums zur Geltung. 

(5) enthält die geschilderte Konsequenz: die ausdrückliche Relativierung 
auf eine Theorie der Stützung. 

(6) drückt schließlich aus, daß es sich um einen komparativen Begriff 
handelt. 

Der Übergang von der Stützung zum Test erfordert zwei Modifika- 
tionen: in (5) ist „ Stützungstheorie 4 c durch „Testtheorie 4 c zu ersetzen; in 
(6) ist „die am besten gestützte 44 durch „zu akzeptierende 44 zu ersetzen. 

Zum Abschluß stellen wir noch die Frage, an welcher Stelle der prag- 
matische Gesichtspunkt zur Geltung gelangt. Dazu ist zunächst zu sagen, daß 
es den pragmatischen Gesichtspunkt nicht gibt. Wir können nur ganz all- 
gemein von Abhängigkeiten von konkreten Wissenssituationen sprechen. 
Und solche gibt es nicht weniger als vier. Von der Situation hängt es ab, 

(a) was als Erfahrungsdatum anerkannt ist ; 

(b) welche Alternativhypothesen als potentielle Konkurrenten unserer Null- 
hypothese in Erwägung gezogen werden; 

(c) welches in diesem Kontext nicht bezweifelte, sondern als gültig unter- 
stellte background knowledge (System von Oberhypothesen ) in das statistische 
Datum einbezogen wird; 

(d) was für eine Stüt^ungstheorie (Testtheorie) der Beurteilung ^ ugrundegelegt 
wird . 

Die Ersetzung einer zweistelligen Stützungsrelation durch eine fünf- 
stellige bedeutet somit zugleich die Berücksichtigung eines vierfachen prag- 
matischen Aspektes statt eines höchstens einfachen. 

Ob es möglich sein wird, die Situationstypen genau zu charakterisieren, 
in denen bestimmte Stützungs- bzw. Testtheorien als adäquat anzusehen 
sind — so daß die Einsetzung für die vierte Variable durch genau angebbare 
situationsabhängige Kriterien zu erfolgen hat — oder ob sich vielleicht so- 
gar die Hoffnung realisieren lassen wird, die Variable „T“ durch die Be- 
schreibung einer ,ein für allemal optimalen 4 Stützungs- oder Testtheorie zu 
ersetzen, dieses offene Problem zu lösen, wird Aufgabe einer künftigen 
systematischen Pragmatik der einzelwissenschaftlichen Erkenntnis sein. 

12. Subjektivismus oder Objektivismus ? 

12.aDie subjektivistische (personalistische) Kritik: de Finetti und 
Savage kontra Objektivismus, de Finetti und an ihn anknüpfende 
Denker, vor allem Savage, versuchten einen ganz anderen Zugang zu den 
Problemen des statistischen Schließens. Wir sprechen innerhalb dieses 
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Unterabschnittes von der subjektivistischen Richtung, da sich im Kontext der 
jetzt zu diskutierenden Auseinandersetzung diese Bezeichnung einge- 
bürgert hat. (Aus den von Carnap angegebenen Gründen wäre die Ver- 
wendung des auf Savage zurückgehenden Ausdruckes „Personalismus“ 
angemessener.) 

In einem ersten Schritt (I) sollen die radikal ablehnende Haltung der 
Subjektivisten gegenüber allen anderen Deutungen, einschließlich der hier 
vorgeschlagenen, charakterisiert und die Motive für diese Haltung ge- 
schildert werden. In einem zweiten Schritt (II) soll gezeigt werden, daß 
die übliche Charakterisierung des Unterschiedes zwischen Subjektivismus 
und Objektivismus irreführend ist, da tatsächlich ein ganz anderer Gegen- 
satz vorliegt. In einem dritten Schritt (III) soll de Finettis Alternativprojekt 
so weit geschildert werden, als es für ein Verständnis der gegenwärtigen 
Diskussion erforderlich ist. In einem vierten Schritt (IV) sollen einige 
kritische Anmerkungen zum Subjektivismus gemacht werden. 

(I) de Finettis Radikalismus kann in wenigen Worten vielleicht am 
besten durch eine Analogie verdeutlicht werden, nämlich durch die Analo- 
gie zu Quines Ablehnung intensionaler Begriffe. Quine behauptet be- 
kanntlich, daß Ausdrücke wie „analytisch“, „kontradiktorisch“, „syno- 
nym“ etc. keine größere Klarheit besitzen als die meisten theologischen 
Begriffe, de Finetti vertritt in der Wahrscheinlichkeitstheorie eine ähnliche 
Auffassung: Das Sprechen von Versuchsanordnungen, Versuchen vom selben 
Typ , Unabhängigkeit von Ereignissen , Zufallsfolgen und vor allem von objektiven 
Wahrscheinlichkeiten ist für ihn nicht mehr als ein nebulöses Geschwätz. Es 
gibt nur eine wahre Wahrscheinlichkeit : den Grad, in dem eine Person an etwas 
glaubt; oder, wie es de Finetti gelegentlich ausdrückt: den Grad, in dem eine 
Person an etwas zweifelt. Diese subjektive Deutung ist nach ihm die einzig 
sinnvolle Interpretation des Wahrscheinlichkeitsbegriffs. Der Glaube an eine 
mit physikalischen Systemen verknüpfte objektive Wahrscheinlichkeit ist 
nichts weiter als ein Spezialfall eines metaphysischen Irrglaubens, der auf 
einer unberechtigten Ontologisierung und Hypostasierung subjektiver 
Überzeugungsgrade bzw. Zweifelsgrade beruht. 

Da in früheren Abschnitten verschiedene der von den Subjektivisten 
verworfenen Begriffe, z. B. der Begriff der Zufälligkeit, auf den der Chance 
zurückgeführt worden sind, trifft diese Ablehnung vor allem den objektiven 
Wahrscheinlichkeitsbegriff, d. h. den Begriff der Chance. Doch bleiben auch wei- 
tere Begriffe von scharfer Ablehnung nicht verschont. Dies ist für uns des- 
halb von Wichtigkeit, weil einige dieser weiteren Begriffe in die Explika- 
tion des Begriffs der Chance mit Eingang finden. Dazu gehört insbesondere 
der Begriff des gleichen Versuchs oder des Versuchs von derselben Art (z. B. 
Wurf mit dieser Münze), de Finetti fragt: Was heißt hier „gleich“ ? Inter- 
pretiert man diesen Ausdruck im Sinn von „identisch“, so ergibt sich ein 
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Unsinn; interpretiert man ihn anders, so entsteht etwas so Vages, daß man 
darunter alles oder nichts verstehen kann 92 . 

Zwei Motive dürften de Finetti hauptsächlich zu seiner Ablehnung der 
objektivistischen Auffassung bewogen haben. Das erste Motiv ist die For- 
derung nach Entscheidbar keit von Wahrscheinlichkeitsaussagen, die von 
statistischen Hypothesen im objektivistischen Sinn nicht erfüllt wird. Dieses 
Motiv erinnert stark an den radikalen Verifikationspositivismus innerhalb 
des Empirismusstreites und dürfte daher mit der Überwindung dieses Stand- 
punktes innerhalb der Wahrscheinlichkeitstheorie ebenfalls nicht mehr all- 
zu ernst genommen werden. Es ist auch gegenwärtig in den Hintergrund 
getreten. Um so größeres Gewicht ist auf das zweite Motiv zu legen: die 
Entdeckung eines Fehlers in der v. Mises-Reichenbachschen Analyse des 
statistischen Wahrscheinlichkeitsbegriffs. Davon war bereits an früherer 
Stelle die Rede (vgl. l.b). Wenn f eine Folge von Resultaten bei Versuchen 
einer bestimmten Art ist und H^{f) die relative Häufigkeit der Ereignisse E 
in den ersten n Gliedern dieser Folge darstellt, so definiert z. B. Reichenbach 
die statistische Wahrscheinlichkeit von E durch: W (E) = lim Diese 

ft — >oo 

Definition beruht, wie wir gesehen haben, auf einer 1 Verwechslung von prak- 
tischer Sicherheit mit logischer Notwendigkeit : Angenommen, die Wahrschein- 
lichkeit, mit diesem Würfel eine 6 zu werfen, beträgt 1/6. Falls diese Wahr- 
scheinlichkeit — wie dies soeben geschehen ist — als Grenzwert der relativen 
Häufigkeit von Sechserwürfen einer unendlichen Wurffolge interpretiert 
wird, so ist es logisch unmöglich y daß eine unendliche Folge von Würfen mit 
diesem Würfel nur Resultate 2 (oder nur 1 und 2 oder nur 1 und 2 und 3 
oder irgendeine andere Folge von Augenzahlen, unter denen die 6 nicht 
vorkommt) liefert. Tatsächlich können wir aber unter der angegebenen 
Voraussetzung nur praktisch sicher sein, daß so etwas nicht vorkommt. 

Will man diesen Gedanken präzisieren, so muß in der obigen Formel 
die strikte Konvergenz durch die wahrscheinlichkeitstheoretische Konvergenz 
ersetzt werden. 

Dies sieht genauer so aus: Es wird nicht mehr behauptet, daß es für jede Folge 
/ einen Wert g B (J) gibt, so daß die obige Gleichung (mit ,,g E (f)“ für,, W ( E )“) 
gilt, sondern nur, daß diese Konvergenz für fast jede Folge f gilt, wobei das „fast 
jede“ auf ein Wahrscheinlichkeitsmaß w zu relativieren ist. In formaler Sprech- 
weise: w({f\ lim H*(f) — g E (f)}) = l(d. h. für eine beliebige Folge /konvergiert 

n— >co 

die relative Häufigkeit der E’ s in / mit Wahrscheinlichkeit 1 gegen den Grenzwert 
g E (f))- 

Inhaltlich gesprochen bedeutet dies nichts anderes als daß die Vergröbe- 
rung des ( starken ) Gesetzes der großen Zahl , welche die Eimestheoretiker ihrer 
Explikation des Begriffs der statistischen Wahrscheinlichkeit zugrunde legen — und 
welche in der Ersetzung der wahrscheinlichkeitstheoretischen Konvergenz 

02 Vgl. [Initial Probabilities], S. 11. 




Subjektivismus oder Objektivismus? 



223 



durch die gewöhnliche Konvergenz besteht — wieder rückgängig gemacht wird . 
Absichtlich haben wir diesmal ein kleines „w“ für „Wahrscheinlichkeit“ ge- 
schrieben. Denn würden wir „IF“ schreiben und darunter die statistische 
Wahrscheinlichkeit verstehen, so würden wir entweder in einen Definitions- 
zirkel oder in einen unendlichen Regreß hineingeraten, je nachdem, ob wir 
g E (J) mit dieser Wahrscheinlichkeit identifizieren oder unter W eine Wahr- 
scheinlichkeit höherer Ordnung verstehen wollen. 

Der Einwand, daß es überall dort, wo v. Mises und Reichenbach den 
Ausdruck „konvergiert“ gebrauchen, statt dessen heißen muß: „konver- 
giert fast überall“, ist für diese Variante der objektivistischen Theorie töd- 
lich. Ist sie für jede Variante der objektivistischen Theorie tödlich? Dies 
hängt, wie in (II) zu zeigen sein wird, davon ab, wie man den Ausdruck 
„objektive Wahrscheinlichkeit“ interpretiert. 

Für die subjektivistische Theorie entsteht mit der Einführung von 
g E {f) hingegen keinerlei Schwierigkeit. Es wird darin ja nicht behauptet, 
daß dieser probabilistische Grenzwert als Wahrscheinlichkeit zu interpre- 
tieren sei ! Vielmehr wird dieser Grenzwert mittels des bereits anderweitig %ur 
Verfügung stehenden subjektiven Wahrscheinlichkeitsbegriffs w eingeführt. Wir 
werden auf die Größe g E (J) in (III) nochmals zurückkommen. Ihre Bedeu- 
tung liegt darin, daß sie in gewissem Sinn das fiktive subjektivistische Analogon 
%um Begriff der objektiven statistischen Wahrscheinlichkeit darstellt. Von einem 
Analogon sprechen wir deshalb, weil dieser Begriff dazu dient, in der 
Sprache der subjektivistischen Theorie Aussagen über objektive statistische 
Wahrscheinlichkeiten zu rekonstruieren. Wir nennen das Analogon fiktiv, 
weil es sich ja um keine Wahrscheinlichkeit handelt, sondern nur um etwas, 
mit dem man so operieren kann, ,als ob c es eine Wahrscheinlichkeit sei, 
und das im übrigen ganz mit Hilfe von Begriffen der subjektivistischen 
Theorie definiert ist. 

Wer an den technischen Einzelheiten im Aufbau der Wahrscheinlich- 
keitstheorie nicht interessiert ist, kann leicht den Verdacht hegen, der 
Unterschied zwischen objektiver und subjektiver Theorie reduziere sich 
auf Unterschiede in mathematischen Einzelheiten. Daß dies eine irrige An- 
nahme wäre, sei an einem konkreten Problem erläutert: den unbekannten 
Wahrscheinlichkeiten. Für den Objektivsten ist das Vorliegen unbekannter 
Wahrscheinlichkeiten der Normalfall, welcher überhaupt erst zur ganzen 
Problematik des statistischen Schließens führt: Da wir die Wahrschein- 
lichkeiten (gewöhnlich oder zumindest häufig) nicht kennen, müssen wir 
Hypothesen über sie formulieren und diese Hypothesen zu stützen und zu 
prüfen versuchen. Für den Subjektivisten ist diese Voraussetzung unhaltbar : 
Da eine Wahrscheinlichkeitsaussage stets eine Aussage darüber dars teilt, 
in welchem Grad eine Person P an etwas glaubt, kann es keine unbekannten 
Wahrscheinlichkeiten geben. Die Unbekanntheit könnte höchstens besagen, 
daß der Person P der Glaubensgrad nicht voll bewußt ist. Aber dies bildet 
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kein Hindernis, davon zu reden. Denn falls P eine rationale Person ist, 
kann der Subjektivist sofort ein Verfahren angeben — welches im Angebot 
verschiedener Wetten besteht — , um diesen Grad bewußt zu machen. Unbe- 
kannte objektive Wahrscheinlichkeiten hingegen sind für ihn metaphysi- 
scher Nonsens. 

(II) Wir müssen jetzt die gegensätzlichen Auffassungen etwas syste- 
matischer unter die Lupe nehmen. Die übliche Gegenüberstellung „objek- 
tive Interpretation der (statistischen) Wahrscheinlichkeit — subjektive In- 
terpretation der Wahrscheinlichkeit“ ist nämlich nur solange berechtigt, 
als man an der reduktionistischen These festhält . Unter der reduktionistischen 
These verstehen wir dabei im gegenwärtigen Zusammenhang die Forderung, 
den Begriff der statistischen Wahrscheinlichkeit mit Hilfe von bereits verständlichen 
Begriffen %u definieren. Um eine Kurzformel zur Verfügung zu haben, spre- 
chen wir vom probabilistischen Reduktionismus . Sofern wir annehmen, daß 
alles Verständliche in der sog. Beobachtungsprache formulierbar ist, han- 
delt es sich um die Auffassung, daß die statistische Wahrscheinlichkeit auf 
beobachtbare Größen definitorisch zurückführbar sein müsse. 

Wir haben gesehen, daß unter dieser Voraussetzung das Recht auf der 
Seite der Subjektivisten steht. Da jedoch die Voraussetzung wesentlich ist, 
können wir vorläufig nicht mehr behaupten als die Gültigkeit einer Kondi- 
tionalaussage : Wenn der probabilistische Reduktionismus gilt , dann sind die Sub- 
jektivisten im Recht. 

Aber gilt dieser Reduktionismus überhaupt? Die gesamte vorliegende 
Analyse ging von der Voraussetzung aus, daß er nicht gilt, sondern daß 
Chance kein beobachtungsmäßig definierbarer, sondern nur ein partiell 
deutbarer theoretischer Begriff sei. Damit aber verschiebt sich die ganze 
Problemlage. Das, worum es geht, ist nicht mehr der Gegensatz zwischen 
Objektivismus und Subjektivismus, sondern der Gegensatz zwischen Re - 
duktionisten und Anti-Reduktionisten. Der Subjektivist bleibt erst dann Sieger, 
wenn auch bei diesem Gegensatz das Pendel zugunsten der ersten Alternative 
ausschlägt. 

Die Zeiten des allgemeinen Glaubens an reduktionistische Programme 
sind heute vorbei. Insbesondere hat sich in der Grundlagendiskussion der 
Realwissenschaften immer mehr die Auffassung durchgesetzt, daß in all 
diesen Disziplinen theoretische Begriffe eine zentrale Rolle spielen. Die Gründe, 
welche für die Einführung solcher Begriffe sprechen, sollen hier nicht 
wiederholt werden. Statt dessen soll umgekehrt vor einer vorschnellen 
Analogie gewarnt werden: Damit, daß sich die meisten dispositionellen 
und quantitativen Begriffe als theoretische Begriffe erwiesen haben, ist 
noch nicht gezeigt, daß auch Chance als eine dispositioneile theoretische 
Größe aufgefaßt werden müsse. Daraus, daß der Reduktionismus manchmal 
oder oft nicht funktioniert, darf man nicht den übereilten Schluß ziehen, 
daß er niemals funktioniert. Eine gesonderte Prüfung im Einzelfall bleibt 
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unerläßlich. Dies um so mehr, als reduktionistische Programme aller Spiel- 
arten etwas Faszinierendes und prima facie Überzeugendes an sich haben: 
der Nominalist fordert die Übersetzung suspekter platonistischer Kontexte 
in harmlose nichtplatonistische ; der Verifikationspositivist fordert die Eli- 
mination aller prinzipiell nicht verifizierbaren Hypothesen; für den radi- 
kalen Empiristen müssen die Aussagen des Theoretikers auf die des Beob- 
achters zurückgeführt werden; der Phänomenalist anerkennt nur solche 
Ding-Aussagen, die als stenografische Abkürzungen von Sätzen über 
Phänomenales deutbar sind. In diese Liste — die sich leicht verlängern 
ließe, z. B. um den Extensionalismus, den mathematischen Konstruktivismus — 
fügt sich zwanglos der probabilistische Reduktionismus der Personalsten 
ein: Alle Wahrscheinlichkeitsaussagen (und was sonst noch damit zusam- 
menhängt) sind letztlich zurückführbar auf subjektive Wahrscheinlich- 
keitsurteile. 

In einer entscheidenden Hinsicht allerdings ist der Personalist in einer 
wesentlich besseren Position als die reduktionistischen Kollegen anderer 
Fakultäten : in der Frage der Beweislast . Dazu muß man sich zunächst an den 
(trivialen) Sachverhalt erinnern, daß nur partiell deutbare Begriffe keinen 
Selbstzweck darstellen, der mit Freude zu begrüßen wäre, sondern eher für 
ein unvermeidbar hinzunehmendes Übel gehalten werden: Wo man mit 
dem voll Verständlichen nicht auskommt, muß man sich mit dem nur par- 
tiell Verständlichen begnügen. Dazu aber muß für jede Kategorie von 
Termen, die als theoretische Terme gedeutet werden, zunächst gezeigt 
worden sein, daß diese Terme nicht als voll verständliche Begriffe in die 
Wissenschaftssprache eingeführt werden können. Daß diese Voraussetzung 
stimmt, wird vom probabilistischen Reduktionisten bestritten, da er über 
eine Theorie zu verfügen meint, in welcher der Wahrscheinlichkeitsbegriff 
nicht als eine nur partiell deutbare Größe eingeführt zu werden braucht. 
Um diesen Standpunkt kritisch beurteilen zu können, muß man die zu- 
grundeliegende Theorie zunächst zur Kenntnis nehmen 93 . 

(III) Es gibt verschiedene Möglichkeiten, die ersten Explikations schritte 
der subjektivistischen Theorie zu tun. Den Ausgangspunkt bildet in allen 
Fällen die vorwissenschaftliche Verwendung von Wahrscheinlichkeitsaus- 
sagen, und zwar in komparativen Vergleichsfeststellungen 94 von der Art: „Es 
ist (für mich) mindestens ebenso wahrscheinlich, daß es morgen regnen 
wird, als daß das Wetter schön bleiben wird“. Um diese Wendung zu prä- 

93 Vgl. für das Folgende auch B. de Finetti, [Foresight], [Initial Probabili- 
ties] ; F. v. Kutschera, [Subjektiver Wahrscheinlichkeitsbegriff] ; J. Hacking, 
[Statistical Inference], Kap. 13. Zwei wichtige Aspekte der subjektivistischen 
Theorie werden im Anhang II eingehend erörtert. 

94 Für eine präzise formale Charakterisierung des komparativen Wahrschein- 
lichkeitsbegriff sowie eine genaue Formulierung des zugehörigen Metrisierungs- 
problems vgl. Anhang III, insbes. 2. a. 
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zisieren und den Übergang zu einer Metrisierung des zunächst rein kom- 
parativen WahrscheinlichkeitsbegrifFs zu ermöglichen, wird von einem 
neuen Grundgedanken Gebrauch gemacht, der sich kurz so beschreiben 
läßt: Der Wahrscheinlichkeitsgrad, den eine Person einem bestimmten 
Ereignis beimißt, läßt sich dadurch ermitteln, daß man die Bedingungen unter- 
sucht , unter denen die Person bereit wäre , auf dieses Ereignis %u wetten. 

Es sei P eine Person; b sei ein Geldbetrag oder sonstiger Vermögens- 
wert, der für P von Nutzen ist. P wird vor die folgende (ausschließende!) 
Alternative gestellt: „Du mußt entweder auf das Ereignis E x wetten und 
erhältst b, falls E x eintrifft; dagegen nichts, wenn es nicht eintrifft. Oder du 
mußt auf das Ereignis E 2 wetten und erhältst b, wenn eintrifft; dagegen 
nichts, wenn E 2 nicht eintrifft“. Wenn P auf E 1 wettet 95 , so wird dies als 
Kriterium dafür genommen, daß E x für P wahrscheinlicher ist denn E 2 . 

Diese ,Übersetzung c in die Sprache des Wettverhaltens ist notwendig, 
um in einem ersten Schritt einige einleuchtende Axiome für den kompara- 
tiven Wahrscheinlichkeitsbegriff zu formulieren und in einem zweiten 
Schritt diesen komparativen Begriff zu metrisieren. Auf eine Kurzformel 
gebracht, lautet de Finettis Gedanke: Subjektive Wahrscheinlichkeit oder 
subjektiver Glaubensgrad (einer Person X an ein Ereignis E) ist operational 
%u definieren als maximaler Wettquotient (zu dem X auf E zu wetten bereit 
wäre). Wie erstmals de Finetti gezeigt hat, muß diese Metrisierung die 
Kolmogoroff- Axiome (mit Ausnahme der or- Additivität) erfüllen, d. h. die 
subjektive Wahrscheinlichkeit erweist sich als ein normiertes Maß über 
einem Ereigniskörper. 

Es sei auch zu diesem quantitativen Fall für diejenigen Leser, die Teil II 
(noch) nicht kennen, eine inhaltliche Erläuterung gegeben : Angenommen, unsere 
Person P bewertet die folgenden, ihr angebotenen Alternativen als gleich gut 
(d. h. sie ist bereit, die eine für die andere auszutauschen) : entweder jetzt gleich 
1,— DM zu bekommen (ohne daß irgendeine weitere Bedingung erfüllt sein 
müßte) oder 10,— DM unter der Voraussetzung zu erhalten, daß morgen schönes 
Wetter sein wird. Dann wird der Grad, mit dem P an morgiges schönes Wetter 
glaubt, gleich 1/10 gesetzt. Allgemein: S sei ein Geldbetrag. Wenn P bereit ist, 
den Besitz des Betrages w • S auszutauschen gegen den Besitz von S unter der 
Voraussetzung , , daß E vor kommt , so ist w der Grad der Wahrscheinlichkeit des 
Ereignisses E für die Person P. 

Etwas anders war das Vorgehen von F. P. Ramsey. Sein Grundbe- 
griff war der des rationalen Verhaltens bei einer Wahl zwischen verschie- 
denen einander ausschließenden Möglichkeiten. Er versuchte, Postulate 
für dieses rationale Wahlverhalten aufzustellen und dadurch sowohl den 
Begriff der subjektiven Nützlichkeit als auch den des rationalen Wettquo- 

95 Der Ausdruck „Wette“ wird in dem hier beschriebenen allgemeinen Sinn 
des Wählens verwendet, nicht in dem engeren Sinn, der in den Teilen I und II ver- 
wendet worden ist und bei der noch zu beschreibenden dritten Methode zur Spra- 
che kommt. 
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tienten auf den des rationalen Wahlverhaltens zurückzuführen. Die Kolmo- 
goroff- Axiome für die Wahrscheinlichkeit lassen sich auf diese Weise ebenso 
begründen wie die sog. Nützlichkeitsaxiome. Eine moderne und originelle 
Variante dieser Theorie, für welche auch die technischen Einzelheiten aus- 
gearbeitet wurden, haben wir in Teil I in Gestalt der Entscheidungslogik 
von R. Jeffrey kennengelernt. 

Gewisse Grundideen de Finettis sowie Ramseys wurden von den drei 
Logikern J. G. Kemeny, A. Shimony und R. S. Lehmann im Detail durch- 
geführt. Es wird hier nicht mit einzelnen Wetten, sondern mit ganzen 
Systemen von Wetten gearbeitet und ein neues Rationalitätskriterium, ge- 
nannt Kohären eingeführt. Wenn man zugibt, daß es unvernünftig ist, ein 
System von Wetten zu akzeptieren, die, was immer sich tatsächlich ereig- 
nen mag, mit Sicherheit zu einem Gesamtverlust führen, dann muß man, 
wie ebenfalls bereits de Finetti erkannt hatte, außerdem zugeben, daß die 
Kolmogoroff- Axiome gelten, sofern man Wahrscheinlichkeit als rationalen 
Wettquotienten deutet. (Die präzise Darstellung des Beweisganges für das 
System Carnap II findet sich in Teil II.) 

Läge nichts weiter vor als das bisher Geschilderte, so wäre die sub- 
jektivistische Theorie vermutlich weitgehend unbeachtet geblieben. Die 
Kritik an der Limesdefinition wäre zwar hingenommen worden; doch hät- 
ten sich die Statistiker vermutlich auf das zurückgezogen, was ich an anderer 
Stelle die Vagheitsinterpretation der statistischen Wahrscheinlichkeit 
nannte (vgl. auch [Erklärung und Begründung], S. 644). Und was die eben 
erwähnten subjektivistischen Begründungsversuche der Kolmogoroff- 
Axiome betrifft, so würden die meisten Wahrscheinlichkeitstheoretiker dies 
als eine nicht sehr aufregende interne philosophische Spintisiererei be- 
trachten, da sich unter ihnen ja ohnehin kaum einer befindet, der an der 
Gültigkeit dieser Axiome zweifelt 96 . 

Daß de Finettis Gedanken unter den Grundlagenforschern und Stati- 
stikern starken Anklang gefunden haben, beruht auf einem weiteren wich- 
tigen Resultat. Es gelang ihm, ein Theorem zu beweisen, welches zu drei 
wichtigen Erkenntnissen führte: erstens daß das Sprechen von objektiven 
Wahrscheinlichkeiten im Rahmen der subjektivistischen Theorie in exakter 
Weise als eine harmlose fa(on de parier rekonstruiert werden kann; zweitens 
daß diese Theorie den Gedanken des Lernens aus der Erfahrung in vernünfti- 
ger Weise zu präzisieren gestattet; und drittens daß zusammen mit dieser 
Präzisierung zugleich der Gedanke der rationalen intersubjektiven Überein- 
kunft aufgrund gemeinsamer Erfahrungen in befriedigender Weise zur Geltung 
gelangt. Wir begnügen uns mit einer kurzen intuitiven Skizze, die für das 
Verständnis ausreichend sein dürfte. Um nicht in Punkten, die in diesem 

96 Im quantenmechanischen Fall bestehen hingegen echte Zweifelsgründe; 
vgl. dazu Abschnitt 12. b, ferner Anhang III, 2. b sowie den Anhang von Bd. II, 
Theorie und Erfahrung . 




228 



Die logischen Grundlagen des statistischen Schließens 



Zusammenhang unwesentlich sind, zu weit abschweifen zu müssen, ver- 
wenden wir einige früher eingeführte Begriffe. (Eine wesentlich genauere 
Schilderung findet der Leser in Anhang II). 

Gegeben sei eine experimentelle Anordnung X und Versuche vom 
Typ T an X. (Wegen der Relativität der einzuführenden Begriffe auf Per- 
sonen ist es nicht erforderlich vorauszusetzen, daß diese Versuche, wie 
z. B. Würfe mit einer Münze oder mit einem Würfel, in irgendeinem objek- 
tiven Sinn als Versuche desselben Typs charakterisierbar sind. Vielmehr ge- 
nügt die Annahme, daß der fragliche Personenkreis die Versuche für Ver- 
suche desselben Typs hält.) Eine Unabhängigkeitsannahme wird nicht ge- 
macht und kann auch nicht gemacht werden, da ja, wie wir wissen, der Be- 
griff der Unabhängigkeit ebenfalls zu den von den Subjektivisten verab- 
scheuten Begriffen gehört. An die Stelle dieses Begriffs tritt bei de Finetti, 
gewissermaßen als subjektivistisches Analogon, der wichtige Begriff der 
Vertauschbar keit von Ereignissen. Wir übernehmen dazu die bereits oben 
eingeführte Symbolik: / sei eine Folge von Ereignissen, die durch Reali- 
sierung von Versuchen vom Typ T an X zustandekommt. Die Glieder 
dieser Folge E l9 E 2 , . . .E ni . . . heißen vertauschbar, wenn die Wahrschein- 
lichkeiten aller Konjunktionen von je r Gliedern dieser Folge (r beliebig) 
gleich sind. Eine Person wird diese Vertauschbarkeit insbesondere dann 
annehmen, wenn sie die Ereignisse ,für unabhängig hält c . 

Wir gehen davon aus, daß für jede Person P { eine subjektive Apriori- 
Wahrscheinlichkeit (Ausgangswahrscheinlichkeit) wf* gegeben sei. In for- 
maler Sprechweise handelt es sich um ein Wahrscheinlichkeitsmaß, das für 
den Ereigniskörper über dem Stichprobenraum, bestehend aus den mög- 
lichen Resultaten von Versuchen des Typs T an X y erklärt ist. Daß es sich 
um subjektive Wahrscheinlichkeitsmaße handelt, soll heißen: Die Größen 

können als Wettquotienten bei rationalem (lies : kohärentem) Wettver- 
halten interpretiert werden. Es wird nicht vorausgesetzt, daß diese Größen 
gleich oder auch nur einander ähnlich sind: Die subjektiven Ausgangs- 
wahrscheinlichkeiten können von Person zu Person vollkommen differieren. 

Die Größen wf* liegen fest, bevor mit Durchführungen von Versuchen 
begonnen wurde. Jetzt nehmen wir an, daß die Versuchsfolge beginnt. Es 
kommt dann zu drei verschiedenen Arten von Konvergenzen, die scharf 
auseinanderzuhalten sind. 

Wir greifen eine bestimmte Person P i heraus und betrachten die rela- 
tiven Häufigkeiten H%(f) des Vorkommens von Ereignissen der Art E 
in der Folge / bei den ersten n Durchführungen des Versuchs. (Diese rela- 
tiven Häufigkeiten sind natürlich auch für de Finetti objektive Größen y über die 
es aufgrund empirischer Untersuchungen %u intersubjektiver Übereinstimmung 
kommt.) Pi sei rational, d. h. halte stets an der Kohärenzforderung fest, und 
setze weiter die Vertauschbarkeit der Glieder von / voraus. Dann gilt, wie 
de Finetti beweisen konnte, das starke Gesetz und damit auch das schwache 
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Gesetz der großen Zahlen (vgl. Teil 0, Formel (70) und (71)), d. h. es gelten 
die beiden Aussagen : 

({/I A £ [e > o- WA n {n>N^\ Hg(f)-g?(f) | e)]}) = 1 

oder kürzer: 

(a) »’i ({/ 1 lim = gf (/)}) = 1 

W-> 00 

und: 

(i b ) für alle e > 0 ist 

lim n>i ({/| | H%(f) gf (/) | < e}) = 1 

n-> oo 

bzw. in ausführlicherer Symbolik: 

Asf\r][e>Ohr]>Q- j >- ViV A « (« > ({/| | /#(/) 

-gfif) \72*})<V)]- 

(a) besagt, daß die Folge der relativen Häufigkeiten H$(f) mit Wahr- 
scheinlichkeit 1 (oder: w r fast sicher) gegen einen Grenzwert gf konvergiert; (b) 
besagt, daß diese Folge nach Wahrscheinlichkeit gegen diesen Grenzwert kon- 
vergiert, d. h. die Wahrscheinlichkeit, daß bei Wahl eines hinreichend 
großen n die relative Häufigkeit höchstens um den beliebig klein gewählten 
Betrag e nach oben oder nach unten von dem Grenzwert abweicht, liegt 
beliebig nahe bei 1. 

Es ist wichtig zu beachten, daß der für den Subjektivisten problemati- 
sche Begriff der Unabhängigkeit in die Voraussetzungen für die Beweise der 
Gesetze der großen Zahlen nicht eingeht. Was vorausgesetzt werden muß, 
ist nur die Vertauschbarkeit. Der Vertauschbar keitsbegriff ist auf der einen 
Seite auch für den Subjektivisten unproblematisch, da die in seiner De- 
finition benützte Gleichheit von Wahrscheinlichkeiten als Gleichheit von 
(maximalen) Wettquotienten interpretierbar ist. Andererseits enthält er 
gegenüber dem Unabhängigkeitsbegriff dasjenige größere Maß an Allge- 
meinheit, welches das noch zu schildernde (und in Anhang II genauer ana- 
lysierte) Lernen aus der Erfahrung ermöglicht. 

„w“ bezeichnet hier die auf unsere Person P i bezogene subjektive 
Wahrscheinlichkeit. (Der Grund dafür, daß hier auf einen oberen Index ver- 
zichtet wird, kommt weiter unten zur Sprache.) Die Größe gf (/) nennen 
wir Quasi-Chance . Dadurch soll ausgedrückt werden, daß man im Kontext 
subjektiver Wahrscheinlichkeitsaussagen mit dieser Größe wie mit einer 
objektiven Wahrscheinlichkeit rechnet. 

Die Bedeutung des Begriffs der Quasi-Chance gf(f) könnte man psycholo- 
gisch durch Vergleich mit der Auffassung Carnaps verdeutlichen. Carnap unter- 
scheidet bekanntlich zwischen induktiver Wahrscheinlichkeit und Häufigkeit auf 
lange Sicht als zwei verschiedenen möglichen Explikanda für „Wahrscheinlich- 




230 



Die logischen Grundlagen des statistischen Schließens 



keit“. In bezug auf den ersten Begriff besteht prinzipiell Übereinstimmung zwi- 
schen ihm und den Subjektivisten. In bezug auf den zweiten Begriff aber scheint ein 
fundamentaler Gegensatz zu bestehen: FürCARNAP gibt es ja zwei verschiedene 
Wahrscheinlichkeiten (induktive und statistische), während für de Finetti nur eine 
, wahre* Wahrscheinlichkeit, eben die subjektive, besteht. Aber der Schein kann 
trügen. Vermutlich würde de Finetti eine Differenzierung vornehmen und sagen: 
Entweder Carnap erwähnt in den Kontexten, wo er von Häufigkeit auf lange 
Sicht spricht, nicht nur ein mehr oder weniger vages Explikandum, sondern hat 
auch das Explikat von Reichenbach bzw. v. Mises im Auge. Dann ist seine An- 
nahme falsch (wegen der Fehlerhaftigkeit jener Explikation). Oder er will tatsäch- 
lich nur von einem solchen Explikandum sprechen. Dann kann man Größen von 
der Art der Größe gf(f) als präzises Explikat zugrundelegen. Dies weist zugleich 
auf ein wissenschaftstheoretisch interessantes Phänomen hin: Wenn zwei Expli- 
kanda vorgegeben werden, die prima facie vollkommen verschieden sind, so kann 
es sich später erweisen, daß beide mittels ein und desselben Grundbegriffs zu 
explizieren sind. 

Auch Carnaps Vorwurf, daß die Nichtunterscheidung zwischen den beiden 
Wahrscheinlichkeitsbegriffen zu einer Verwechslung von Wahrscheinlichkeit und 
Schätzung der Wahrscheinlichkeit führt (bzw. auch umgekehrt: auf dieser Ver- 
wechslung beruhen kann), trifft de Finetti nicht. Denn während man stets vor- 
aussetzen darf, daß die Größe w i der Person P t bekannt ist, gilt dies für den pro- 
babilistischen Grenzwert gf(f) nicht. Es ist daher durchaus sinnvoll, daß die Person 
Pi über diese Größe Annahmen macht, also sie z. B. schätzt. 

Die bisherige Analyse bliebe noch immer einem fundamentalen Ein- 
wand ausgesetzt : Wie der Index andeutet, bleibt auch die Größe gf (/) 
noch auf eine Person relativiert. Ein Verfechter des objektiven Wahrschein- 
lichkeitsbegriffs könnte daher die boshafte Bemerkung anbringen, daß es 
sich bei dieser Größe nicht um ein subjektivistisches Analogon zur Chance, 
sondern um nichts weiter als eine subjektive fixe Idee oder ein subjektives Vor- 
urteil handle. 

Um diesen Einwand entkräften zu können, müssen zwei weitere, und 
zwar diesmal echte, Konvergenzen herangezogen werden. Jedenfalls würde 
es nicht genügen darauf zu pochen, daß gf(f) als Grenzwert der objektiven 
Folge empirisch zu ermittelnder relativer Häufigkeiten H% (/) eingeführt 
wurde. Denn es handelt sich ja nur um die probabilistische Konvergenz 
n>i -fast überall. Der Objektivist könnte daher sofort einwenden, daß diese 
objektiven Größen nicht ausreichen: Eine hinreichende Verrücktheit in 
jenen gewußten Vorurteilen c , die der Subjektivist Wahrscheinlichkeiten 
nennt, vorausgesetzt, wird auch die Größe gf(f) mit einem beliebigen Grad 
an Unplausibilität ausgestattet werden können. 

Hier ist nun die weitere Tatsache zu berücksichtigen, daß der Betrag der 
subjektiven Wahrscheinlichkeit für die Person P { keine starre Größe dar- 
stellt. Gegeben sei eine statistische Verteilungshypothese. Die subjektive 
Ausgangswahrscheinlichkeit für Ereignisse der Art E sei wieder Diese 
Ausgangswahrscheinlichkeit wird bereits nach der ersten Beobachtung, 
welche also das Resultat Hf(f ) liefert, zu dem Betrag n/p modifiziert. Wir 
erhalten so eine Folge von Aposteriori-Wahrscheinlichkeiten: Ist nßß der 
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rationale Wettquotient, der sich nach Beobachtung von n Resultaten ergibt, 
dann konvergiert unter der Voraussetzung der Vertauschbarkeit die Folge 
wf\ , . . . w { ß , . . . gegen einen Wert w { . Und zwar vollzieht sich diese 
Konvergenz rapide — ganz im Gegensatz zur v. Mises-Reichenbach- 
Theorie, in der nicht ohne irrationale Zusatzannahmen angebbar ist, wo das 
Konvergenzverhalten tatsächlich sichtbar wird. In dieser Weise vollzieht 
sich das Lernen aus der Erfahrung: Die ursprünglichen subjektiven Ausgangs- 
wahrscheinlichkeiten werden durch das sich nach und nach vergrößernde 
Erfahrungsmaterial sukzessive modifiziert und verbessert. Die objektive 
Erfahrung relativer Häufigkeiten erzwingt eine Konvergenz der subjekti- 
ven Wahrscheinlichkeitsannahmen und zwar ganz unabhängig davon, wie 
die Apriori-Quotienten lauteten. Und diese Konvergenz wiederum bewirkt, 
daß die Quasi-Chance einen Wert nahe der beobachteten relativen Häufigkeit an- 
nimmt , vorausgesetzt allerdings, daß die subjektive Ausgangswahrschein- 
lichkeit nicht den Wert 0 besaß (das Eintreten von der Person also nicht von 
vornherein ausgeschlossen worden ist). 

Wenn man unter „Häufigkeitstheorie der Wahrscheinlichkeit“ nicht 
mehr verstehen will als dies, daß die relative Häufigkeit auf lange Sicht das 
Explikandum für den Begriff der statistischen Wahrscheinlichkeit bildet, so 
könnte ein Subjektivist zwei Gründe dafür angeben, daß er selbst ebenfalls 
ein Verfechter dieser Theorie sei : (1) die Größe ^(/) ist ja ein (allerdings mit- 
tels des subjektiven Wahrscheinlichkeitsbegriffs definierter) Begriff des 
Grenzwertes der relativen Häufigkeit; (2) das in der subjektiven Theorie 
präzisierte Prinzip des Lernens aus der Erfahrung nimmt auf faktische relative 
Häufigkeitsfeststellungen Bezug. 

Gehen wir von P i zu einer anderen Person P 5 (also / 4 = j) über, so er- 
halten wir unter denselben Voraussetzungen analog eine Folge 
wf\ . . ., w] n) , . . ., von der nicht nur gilt, daß sie ebenfalls konvergiert, 
sondern daß sie %u demselben Grenzwert konvergiert wie die Folge der w { f\ 
Die subjektivistische Theorie kann also den Anspruch erheben, sowohl der 
Tatsache Rechnung zu tragen, daß vernünftige Personen aufgrund von Erfahrun- 
gen ihre vorgefaßten Meinungen rasch berichtigen , so daß der Einklang mit der Er- 
fahrung hergestellt wird, sowie der weiteren Tatsache, daß Gruppen von ver- 
nünftigen Menschen aufgrund gemeinsamer Erfahrungen selbst dann %u denselben oder 
doch sehr ähnlichen Auffassungen gelangen , wenn ihre subjektiven Meinungen vor der 
Sammlung von Erfahrungen weit auseinandergingen . 

Hieran kann man deutlich erkennen, wie sehr die Begriffe der Objektivität 
bei den Subjektivisten und ihren objektivistischen Gegnern auseinander- 
klaffen. Objektivität wird nach subjektivistischer Auffassung nicht dadurch 
erzielt, daß man den Wert einer unbekannten Größe richtig errät, vielmehr 
besteht sie in der Herstellung inter subjektiver Übereinstimmung kraft ge- 
meinsamer Erfahrungen. Man könnte auch sagen: Das Prinzip des Ler- 
nens aus der Erfahrung bewirkt, daß die vielen personellen Wahrscheinlich- 
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keifen mit ihren voneinander abweichenden Apriori- Ansätzen mit wachsen- 
der empirischer Information mehr und mehr ähnlich werden und gegen 
ein und dieselbe interpersonelle Wahrscheinlichkeit konvergieren. 

(IV) Die folgenden kritischen Anmerkungen verlaufen zum Teil in 
ganz verschiedene Richtungen und sollen daher in Punkte untergegliedert 
werden. Wir beginnen mit allgemeineren Feststellungen, um später zu kon- 
kreteren Problemen überzugehen: 

(1) Verglichen mit anderen Theorien des statistischen Schließens hat die 
subjektivistische Theorie programmatischen Charakter. Mit Recht betont 
Hacking (a. a. O., S. 216), daß es wichtig wäre, wenn die Subjektivisten 
wenigstens ein Beispiel für ihre Behandlung statistischer Hypothesen von 
Anfang bis Ende durchanalysieren wollten, etwa eine Hypothese über die 
mittlere Lebenszeit bestimmter Insekten unter verschiedenen Lebensbe- 
dingungen 97 . Manche Subjektivisten, wie schon F. P. Ramsey, meinen, daß 
dies gar nicht möglich sei. Doch dies wäre ein implizites Zugeständnis des- 
sen, daß die subjektivistische Theorie nicht ausreicht. Prinzipielle Betrach- 
tungen über die Art und Weise, wie die einschlägigen Begriffe einzuführen 
sind, genügen nicht, um einen Aufschluß über alle Probleme des statistischen 
Schließens zu bekommen. 

(2) Eine Minimalbedingung dafür, von einer Theorie reden zu können, 
ist die Übereinstimmung der Vertreter dieser Theorie in den wesentlichen 
Punkten. Diese Bedingung ist hier nicht erfüllt. Wenn der Begriff der 
Wahrscheinlichkeit auf den des rationalen Wettquotienten zurückgeführt 
wird, so muß zunächst Übereinstimmung darüber bestehen, worüber man 
sinnvollerweise Wetten abschließen kann . In dieser Hinsicht gehen jedoch die 
Meinungen der Subjektivisten stark auseinander. Nach de Finetti kann 
man nur dann auf etwas wetten, wenn sich im nachhinein die Gewinne und 
Verluste verteilen lassen, ohne daß es darüber eine weitere Diskussion gäbe. 
Insbesondere kann es keine Wetten auf unverifizierbare Hypothesen und 
Theorien geben 98 . 

Gerade den gegenteiligen Standpunkt vertritt Savage. Eine der An- 
nahmen seiner Theorie besteht darin, daß es eine subjektive Wahrscheinlich- 
keitsbeurteilung von Hypothesen gibt. Es ist verständlich, daß de Finetti bei 
seiner Abneigung gegen alle metaphysischen Hypostasierungen so etwas 
nicht akzeptieren könnte. Man müßte sich ja vorstellen, daß man es beim 
Wetten auf Hypothesen und Theorien mit dem Gegenspieler Natur zu tun 
hätte und daß bei diesem Spiel ein allwissendes und zugleich absolut kor- 

97 Um konkreter zu sein, kann man etwa annehmen, daß Insekten dieser Spe- 
cies verschiedene Arten von Giften eingegeben wurden. 

98 Vgl. z. B. “If . . . a hypothesis is something that is not observable . . . its 
probability is meaningless”, [Initial Probabilities], S. 11. Wie aus dem Zusammen- 
hang hervorgeht, versteht de Finetti unter “not observable” dasselbe wie „nicht 
durch Beobachtung verifizierbar“. 
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rektes Wesen als Schiedsrichter aufträte, welches dem Wettenden seinen 
Gewinn aushändigt, wann immer er auf eine richtige Theorie gesetzt hat. 

Neuerdings hat Hintikka einen interessanten Versuch unternommen, 
gerade das (in bestimmter Weise interpretierte) Hauptresultat von de 
Finetti selbst zur Grundlage dafür zu nehmen, um dem Wetten auf Naturge- 
setze einen klaren und ßichtmythologischen c Sinn zu geben. Zweckmäßigerweise 
wurde die Schilderung und Diskussion der Hintikkaschen Auffassung an 
den Schluß von Anhang II gestellt, in welchem vorher das für Hintikka s 
Überlegungen entscheidende Repräsentationstheorem von de Finetti ge- 
schildert wird. 

(3) In den Diskussionen über die subjektivistische Theorie spielen 
naturgemäß Auseinandersetzungen über die Plausibilität der Grundannah- 
men eine entscheidende Rolle. Der Objektivist wird mit Nachdruck dar- 
auf verweisen, daß den Vertretern der verschiedenen Spielarten subjekti- 
vistischer Theorien keine adäquate Rekonstruktion probabilistischer Aussagen in 
den Einzelwissenschaften geglückt sei. Insbesondere entziehe sich die moderne 
Physik klar der subjektivistischen Interpretation: Wenn der Atomphysiker 
über — meist unbekannte , jedenfalls aber immer hypothetische — Wahrschein- 
lichkeiten spreche, so rede er über das, was im subatomaren Mikrokosmos 
vor sich gehe, nicht aber spreche er über Spiele, Wetten und vernünftiges 
Glauben. Der Subjektivist wird mit dem Hinweis darauf kontern, daß dies 
nur der augenfällige erste Eindruck sei. Dieser erste Eindruck müßte mit 
zunehmender Kenntnis der Materie einem immer größeren Zweifel weichen, 
ob man denn überhaupt verstehe, wovon in den probabilistischen Aussagen 
der modernen Quantenphysik die Rede sei. Und in einem dritten Schritt 
werde sich der Rückgriff auf die subjektivistische Theorie als unvermeidlich 
erweisen, falls man bereit sei, sich bei der Benützung des Wahr scheinlichkeits- 
begriffs von allen metaphysischen Fiktionen zu befreien. 

Die Rede von metaphysischen Fiktionen ist jedoch nicht ungefährlich. 
Dem Objektivisten sollte es nicht zu schwer fallen, diesen schwarzen Peter 
den Subjektivisten zurückzureichen. 

Warum ist es denn sinnlos, von unbekannten Wahrscheinlichkeiten zu spre- 
chen ? Als Grund gab de Finetti an, daß ein Wissen um solche Wahrscheinlich- 
keiten unmöglich wäre. Was aber heißt dies? Man vergleiche die Feststellung 
etwa mit einer analogen Bemerkung über die Länge eines Stabes (den Schmelzpunkt 
eines Metalls, den Härtegrad eines Minerals etc.) Wir betrachten die drei Behauptun- 
gen: 

(a) Man kann weder um die Chance der Sechserwürfe noch um die Länge (den 
Schmelzpunkt, den Härtegrad) wissen; 

(b) man kann zwar nicht um die Chance der Sechserwürfe, jedoch sehr wohl 
um die Länge (den Schmelzpunkt, den Härtegrad) wissen; 

(c) man kann sowohl um die Chance als auch um die Länge (den Schmelzpunkt, 
den Härtegrad) wissen. 

Wegen der Ablehnung von (c) kommen nur die Deutungsmöglichkeiten von 
(a) und (b) in Frage. In beiden Fällen erhalten wir eine Untergliederung : 
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(aa) Man kann beides deshalb nicht wissen, weil man überhaupt nur ein Wissen 
über logische Wahrheiten gewinnen kann; 

(ab) man kann zwar um einige nichtlogische Wahrheiten wissen (z. B. daß 
ich jetzt auf meinem Stuhl sitze), aber man kann kein Wissen um generelle kontin- 
gente Wahrheiten erlangen, insbesondere nicht um solche, in denen von Quanti- 
täten, Dispositionen und anderen Merkmalen mit gesetzesartigen Konsequenzen 
die Rede ist. 

In beiden Fällen gabeln sich abermals die Möglichkeiten: Der Eine sagt, daß 
wir trotz mangelnden Wissens geringere oder größere Gewißheit erlangen kön- 
nen, nämlich Gewißheit über die nicht vollständig erkennbaren objektiven Wahr- 
heiten ((aaa) und (aba)). Der Andere behauptet, daß diese objektiven Wahrheiten 
eine Fiktion darstellen, da außerhalb unserer Überzeugung oder unseres Geistes 
nichts existiert ((aa ß) und (ab/?)). Der probabilistische Subjektivismus wäre da- 
durch mit irgendeiner Form von idealistischer Metaphysik gekoppelt. 

Auch in (b) und (c) können analoge Fallunterscheidungen getroffen werden. 
Wir hätten damit alles Material beisammen, um je nach Veranlagung und Stimmung 
aus diesen drei Ausgangsalternativen entweder ein philosophiegeschichtliches 
Drama oder eine philosophische Komödie aufzubauen. Die Rollen in diesem meta- 
physischen Schauspiel wären gleichmäßig auf , Subjektivsten 4 und ,Objekti- 
visten 4 verteilt. 

Läßt man alle Metaphysik beiseite, so ist es schwer einzusehen, warum man, 
wie de Finetti meint, (a) verwerfen und (b) akzeptieren soll. Weder in bezug auf die 
Begriffe noch in bezug auf das sog. Wissen scheint ein wesentlicher Unterschied 
zu bestehen. Der theoretische Begriff der Chance kann den theoretischen Begriffen der 
Länge und des Schmelzpunktes an die Seite gestellt werden. Und so, wie wir das 
Wort „Wissen 44 verwenden, kann man um folgendes wissen: daß ich am Schreib- 
tisch sitze; daß ich meine Armbanduhr anhabe; daß mein Nachbar verreist ist; daß 
Menschen auf dem Mond gelandet sind; daß alle Saphire blau sind; daß die spe- 
zielle Relativitätstheorie richtig ist. Auch das Wissen um Chancen kann hier irgend- 
wo eingeordnet werden. 

Sicherlich treten bei diesem letzten sowie bei allem hypothetischen Wissen 
schwierige erkenntnistheoretische Fragen auf. Aber dies sind Schwierigkeiten, 
welche die korrekte Analyse des Wissens betreffen. Schwierigkeiten bei der er- 
kenntnistheoretischen Analyse sind aber scharf zu unterscheiden von Schwierig- 
keiten, die beim Wissenserwerb auftreten. Ein Wissenserwerb braucht überhaupt 
nicht schwierig zu sein (z. B. daß ich jetzt vor meinem Schreibtisch sitze) ; seine 
genaue Analyse kann erhebliche Schwierigkeiten bereiten (bezüglich des Verhält- 
nisses von Wissen und Analyse vgl. auch (4 c)). 

Wenn man die Positionen der Subjektivisten und der Statistiker , her- 
kömmlicher Prägung 4 einander gegenüberstellt, sollte man das Spiel mit 
dem Terminus , Metaphysik 4 vermeiden. Der Unterschied läßt sich besser 
durch eine andere Analogie verdeutlichen, nämlich durch den Gegensatz 
zwischen den , älteren 4 und den , jüngeren 4 Empiristen: jene glauben an den 
Reduktionismus, diese nicht. Diese Analogie macht auch den bestehenden 
Gegensatz psychologisch besser verständlich als die erste. Denn metaphysi- 
sche Thesen stoßen bei Erfahrungswissenschaftlern und Praktikern nicht — 
wie empiristische Philosophen irrtümlich meinen — auf ablehnende Polemik 
als vielmehr auf gelangweiltes Desinteresse. Was einen Statistiker an de 
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Finettis Theorie abstoßen könnte , ist nicht so sehr seine subjektivis tische Metaphy- 
sik , die im Hintergrund steht, als sein Reduktionismus , der im Vordergrund steht. 

(4) Der nächste Punkt läßt sich vielleicht anschaulich durch einen Ver- 
gleich zwischen einem Sinneswandel illustrieren, der sich in Carnap auf- 
grund einer Kritik früherer Auffassungen über Dispositionen vollzogen hat, 
mit einem Sinneswandel, der in de Finettis Geist mutmaßlich nach einer 
kritischen Auseinandersetzung mit den objektivistischen Theorien statt- 
fand. Carnap bekam berechtigte Zweifel an der operationalistischen Ana- 
lyse der Wasserlöslichkeit. Dies führte ihn jedoch nicht dazu, am Begriff der 
Wasserlöslichkeit selbst zu zweifeln, sondern nur dazu, nach einer besseren 
Analyse %u suchen . de Finetti äußerte berechtigte Zweifel an der Analyse der 
statistischen Wahrscheinlichkeit, wie sie durch v. Mises und Reichenbach 
geliefert wurde. Zum Unterschied von Carnap führte ihn dies aber nicht 
nur dazu, nach einer besseren Analyse Umschau zu halten, sondern am Be- 
griff der statistischen Wahrscheinlichkeit selbst z u z weifein . Diese Reaktion ist 
offenbar viel radikaler als die erste : Es verhält sich, um im Analogiebild zu 
verbleiben, so, als wären bei Carnap Skrupel darüber aufgetreten, ob es 
nicht eine metaphysische Fiktion sei, an die Existenz dispositioneller Eigen- 
schaften, wie Wasserlöslichkeit oder Schmelzpunkte, zu glauben. Ein der- 
artiger Skrupel wäre tatsächlich berechtigt gewesen, wenn Carnap das allzu 
ernst genommen hätte , was operationalistische Philosophen uns über Wasserlöslichkeit 
und Schmelzpunkte erzählen. 

Hat de Finetti also die Analysen der Objektivsten zu ernst genommen ? 
Fast scheint es so. Drei Momente dürften dabei im Spiel gewesen sein, und 
zwar: 

(a) Die Definierbarkeitsforderung. Danach sind der Begriff der Wahr- 
scheinlichkeit, ebenso wie alle anderen in statistischen Schlüssen benützten 
Begriffe, durch saubere Definitionen auf bereits verfügbare Begriffe zu- 
rückzuführen. Wie wir gesehen haben, führt die Einsicht in die Unzu- 
länglichkeit der Limesdefinition zusammen mit dem Verbesserungsvor- 
schlag, in welchem „konvergiert“ durch „konvergiert mit Wahrscheinlich- 
keit 1“ ersetzt wird, zwangsläufig zu der subjektivistischen Konzeption. 
Die Zwangsläufigkeit verschwindet jedoch , wenn man die Forderung strikter Defi- 
nierbar keit preisgibt. Solange keine zwingenden Gründe dagegen vorgebracht 
werden, nur partiell deutbare theoretische Begriffe anzuerkennen, steht 
solcher Preisgabe nichts im Wege. 

Auch Hacking formuliert seine Position recht irreführend. Er behauptet 
(a. a. O., S. 214, Zeile 6 von unten ff.), daß er eine andere und bessere Definition des 
Begriffs der statistischen Wahrscheinlichkeit geliefert habe. Mit dieser These 
liefert er sich jedoch unnötig der Kritik seiner subjektivistischen Gegner aus. Was 
er tatsächlich vornimmt, ist keine Verbesserung einer Definition, sondern der Ver- 
such einer partiellen Deutung eines theoretischen Begriffs der Chance über seine 
Stützungstheorie. Daß ein solches Vorgehen nicht ausreichen kann, werden die 
Überlegungen von Suppes in 12. b zeigen. 
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(b) Die Entscheidungsforderung , welche in der Ablehnung unbekannter 
Wahrscheinlichkeiten gipfelt. Nach de Finetti muß jede Wahrscheinlich- 
keitsaussage in bezug auf ihren Wahrheitswert definitiv entscheidbar sein. 
Warum aber ? Vermutlich deshalb, weil er meint, daß jede wissenschaftliche 
Aussage so entscheidbar sein müsse. Hier verschmilzt der Reduktionismus 
in unglückseliger Weise mit der Verifizierbarkeitsforderung. Unglücklich 
ist dies deshalb zu nennen, weil der Reduktionismus, wo immer er sich als 
durchführbar erweist, ernst genommen werden muß. Der generelle Veri- 
fikationspositivismus jedoch ist längst zu einem Stück Philosophiege- 
schichte geworden; er ist heute kein ernsthaft vertretbarer wissenschafts- 
theoretischer Standpunkt mehr. 

(c) Den wichtigsten Punkt haben wir bis zuletzt aufgespart: die zu enge 

Verknüpfung von Wissensproblemen mit Problemen der Analyse . Legt man die 
alltäglichen wie naturwissenschaftlichen Verwendungen von „Wissen“ zu- 
grunde, so kann man mit Recht behaupten, daß wir eine Menge über psychi- 
sche und physische Dispositionen und theoretische Größen wissen , wie Jäh- 
zorn, Gedächtnis, Schmelzpunkte, elektromagnetische Feldstärken, Elek- 
tronen. Wenn man jedoch diese Phänomene zu analysieren versucht, so muß 
man rasch erkennen, daß man vorläufig an eine Grenze stößt, und zuge- 
stehen, daß noch kein befriedigendes Verständnis erlangt worden ist. Es 
würde aber doch als absurd empfunden werden, wegen dieses unbefriedi- 
genden Zustandes der Analyse zu leugnen, daß es jähzornige Leute gibt, 
daß Eisen und alle übrigen Metalle einen Schmelzpunkt haben, daß elektro- 
magnetische Feldstärken existieren. Ein Argument von der Art: Solange 

du die von dir verwendeten Begriffe nicht genau %u analysieren imstande bist , kannst 
du auch kein Wissen über sie erlangen“, ist daher nicht überzeugend. 

Ein solches Argument liegt jedoch implizit der subjektivistischen Ab- 
lehnung andersartiger Versuche von Analysen zugrunde. Die ,Objekti- 
visten‘ gingen von der Beobachtung aus, daß wir bereits eine Menge von 
Wissen über Phänomene erlangt haben, in denen Wahrscheinlichkeiten eine 
Rolle spielen : Wir haben alle möglichen Erfahrungen über Münzen, Würfel 
und Glücksspiele gesammelt, über Lebensversicherungen und Sterbewahr- 
scheinlichkeiten, über radioaktiven Zerfall und quantenmechanische Über- 
gangswahrscheinlichkeiten. Die Analysen dieser Phänomene in den BegrifFs- 
apparaten der Theorien v. Mises’ und Reichenbachs erwiesen sich als un- 
befriedigend. Also hätte man schließen sollen, daß es eine Zukunftsaufgabe 
sei, befriedigende Analysen zu finden. Die Subjektivisten warfen jedoch die 
Flinte ins Korn und verlangten eine sofortige Analyse, die zu einem defi- 
nitiven Resultat gelangt. Als solche bot sich ihre ,operationalistische c Ana- 
lyse des Wahrscheinlichkeitsbegriffs an. 

(5) Ohne weiteren Kommentar sei nochmals eine gemeinsame Voraus- 
setzung (ein gemeinsames Vorurteil?) so verschiedenartiger Denker wie 
Reichenbach, Carnap und de Finetti angeführt, nämlich die Annahme, 
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daß jeder statistische Stützungsschluß die Struktur eines Wahrscheinlich- 
keitssschlusses habe. Demgegenüber wurde hier die Auffassung vertreten, 
daß die Logik der Stützung keine Wahrscheinlichkeitslogik ist. 

Gemeinsamkeiten und Verschiedenheiten zwischen den verschiedenen 
Positionen seien nochmals in einer tabellarischen Übersicht zusammenge- 
faßt. Für die hier vertretene Auffassung wird jeweils ein einge- 

tragen. Diese Auffassung deckt sich — mit Ausnahme möglicherweise von 
Punkt (2) — mit derjenigen Hac kings. 



(1) Forderung nach Entscheidbarkeit 
statistischer Aussagen 

de Finetti 

(2) Reduktionismus 

v. Mises, Reichenbach, de Finetti 

(3) , S tüt^ungs Schlüsse 4 statistischer 
Hypothesen sind Wahrscheinlichkeits- 
schlüsse 

Reichenbach, de Finetti, Carnap 

(4) ,j Enumerative Induktion ‘ 
Reichenbach, de Finetti, Carnap 



Keine Ent scheidbar keitsforderung 

Carnap, Popper, fast alle Vertreter 
der modernen Statistik, + 

Anti-Reduktionismus 
Carnap, Popper, + 

9 Stützungsschlüsse‘ sind keine 
Wahrscheinlichkeitsschlüsse 

Popper, + 

ßliminative Induktion ‘ 

Keynes, Neyman, + 



Wir erinnern daran, daß der nicht unbedenkliche Ausdruck „Induktion“ 
in (4) nur aus Traditionsgründen benützt wurde. Er ist sicherlich auf der 
rechten Seite vermeidbar (eliminatives Verfahren ), möglicherweise sogar auf 
der linken Seite. 

Die bisherigen Anmerkungen waren sehr allgemein gehalten. Es sollen 
jetzt einige konkretere kritische Anmerkungen gemacht werden. 

(6) Wir abstrahieren für den Augenblick von den Meinungsverschie- 
denheiten der Subjektivisten untereinander über die Natur statistischer 
Hypothesen. Es sei eine solche Hypothese gegeben. Beobachtungen werden 
angestellt oder Experimente vollzogen, um die Hypothese zu überprüfen. 
Was man auf diese Weise über die Hypothese aus der Erfahrung lernen 
kann, findet nach der subjektivistischen Theorie seinen Niederschlag in 
einer Änderung der Wettquotienten und der dadurch bedingten Bereit- 
schaft, mit anderen Einsätzen zu wetten. 

Demgegenüber hebt Hacking hervor, daß sich nicht alles Lernen aus der 
Erfahrung in einer Änderung der Einsätze mder^uspiegeln braucht . Tatsächlich 
scheint eine derartige Gleichsetzung eine sehr problematische Einengung des 
Begriffs „Lernen aus der Erfahrung darzustellen. Ein Hinweis möge genügen : 
Das neue Beobachtungsergebnis führe nicht zu einer Änderung der Wettein- 
sätze; die Wettquotienten bleiben unverändert. Nach der subjektivistischen 
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Theorie müßte dann gesagt werden, daß der Beobachter nichts aus der Er- 
fahrung gelernt habe, weil alles beim alten geblieben sei. Dies ist eine recht 
unbefriedigende Behauptung; denn obwohl die subjektiven Wettquotien- 
ten gleich geblieben sind, kann der Beobachter doch viel sicherer geworden 
sein. Diese Zunahme im Grad der Sicherheit ist auch eine Form , in der die neue 
Erfahrung ihren Niederschlag findet. Das Lernen aus der Erfahrung braucht 
nicht in einer Änderung der Einsätze seinen Niederschlag zu finden. 

Wir wollen noch einen Schritt weitergehen. Dazu werde dem Subjekti- 
vsten zugestanden, daß die Änderung der Wettquotienten tatsächlich ein 
adäquates Maß dafür darstellt, was aus der Erfahrung gelernt wurde. 
Rechnerisch werden die neuen Quotienten, d. h. die aus der Verwirklichung 
eines neuen Experimentes resultierenden Wettquotienten, aus den alten 
Wettquotienten dadurch erhalten, daß man die letzteren mit denjenigen 
relativen Likelihoods für die verschiedenen betrachteten Hypothesen multi- 
pliziert, welche sich für diese aufgrund des neuen experimentellen Befundes 
ergeben. Die neuen Likelihood-Werte werden alle durch die sog. Likelihood- 
Funktion geliefert. 

Daraus folgt das subjektivistische Likelihood-Prin^ip . Danach ist alles, was 
am Ergebnis eines durchgeführten neuen Zufallsexperimentes an relevan- 
tem Wissen zu finden ist, bereits in der Likelihood-Funktion enthalten, zu 
welcher das Experiment führte. Alles übrige ist hingegen für die Beurtei- 
lung der Hypothese gänzlich irrelevant". 

Zur konkreten Veranschaulichung stelle man sich den folgenden Sachverhalt 
vor: Zwei Personen A und B betrachten verschiedene statistische Hypothesen 
hi , . . ., h n über Versuchstypen an einer experimentellen Anordnung. Ihre sub- 
jektiven Wahrscheinlichkeiten (Glaubensgrade) finden den Niederschlag in dem 
Verhältnis der Wetteinsätze bezüglich dieser n Hypothesen. Das bisherige Er- 
fahrungswissen sei gemeinsam. Ein neues experimentelles Resultat werde von A 
allein gewonnen und vor B verheimlicht . Wenn A dem B dagegen die Likelihood- 
Funktion offenbart, so hat er nur Irrelevantes verschwiegen. B hat durch die Mitteilung 
nach der Auffassung von Savage dieselbe Information erhalten, welche ihm zuteil 
geworden wäre, falls er selbst das Experiment durchgeführt und das Resultat 
beobachtet hätte 100 . 

,Nichts-weiter-als c -Theorien sind stets suspekt. Um eine Theorie von 
solchem Typ handelt es sich hier. Die Apriori-Bedenklichkeit liegt in der 
bewußten und ausdrücklichen Empfehlung, alle Faktoren außer einem ein- 
zigen zu vernachlässigen. Allgemeine Verdachtsgründe sind natürlich kein 
Ersatz für substantielle Kritik. Für eine solche sind detaillierte Gegengründe 

99 Vgl. Savage [Reconsidered], S. 583. 

100 Dieser Gedanke findet sich bereits bei Fisher. Doch hatte er ihn, ebenso 
wie andere Autoren, mehr als eine provisorische Erfahrungsregel betrachtet, 
die mit vertieftem Verständnis der Grundlagen der Statistik durch etwas Besseres 
zu ersetzen sei. Erst Savage scheint, wie Hacking bemerkt, dieses Prinzip zum 
eigentlichen Credo der subjektivistischen Theorie erhoben zu haben. 
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erforderlich. Ein Vergleich mit der Likeühood-Testtheorie oder einer 
Variante davon könnte solche liefern. 

Ein Vergleich wird ermöglicht, wenn man bedenkt, daß der Begriff der 
Likelihood philosophisch neutral ist; d. h. es spielt keine Rolle, wie der in 
seiner Definition benützte Wahrscheinlichkeitsbegriff interpretiert wird. 
Diese Feststellung allein genügt aber für unseren Zweck nicht; denn das 
frühere Vorgehen ist noch immer zu unähnlich demjenigen von Savage. 
Eine Vergleichbarkeit wird erst erzielt, wenn man die Regel LR modi- 
fiziert. Eine naheliegende Modifikation könnte etwa so formuliert werden : 
„Gegeben sei ein statistisches Datum e im früheren Sinn, d. h. ein Datum, 
welches eine Klasse von zulässigen Verteilungen angibt und außerdem eine 
Klasse von experimentellen Resultaten beschreibt. Wenn dann ein neues 
experimentelles Resultat hinzukommt, so kann eine Auswertung dieses 
Resultates in der Weise erfolgen, daß man die relativen Likelihoods der zur 
Diskussion stehenden Hypothesen im Licht des experimentellen Gesamt- 
resultates miteinander vergleicht“ (LR*). 

Es sollen hier keine Argumente zugunsten einer Annahme dieser Modi- 
fikation vorgebracht werden. Vielmehr fingieren wir einfach, diese An- 
nahme sei plausibel. Fällt dann die subjektivistische Statistik ä la Savage mit 
der theoretischen Statistik ä la Hacking zusammen? Die Antwort lautet 
„Nein“ und zwar aus zwei Gründen. 

Erstens ist auch in LR* nur davon die Rede, wie die Auswertung sta- 
tistischer Hypothesen im Eichte statistischer Daten auszusehen habe. Es wird 
darin nicht behauptet, daß es keine anderen Auswertungen des neuen experi- 
mentellen Resultates gäbe. Solche Auswertungen sind durchaus denkbar. 
Bisher vorgebrachte Beispiele sind allerdings vorläufig nicht ganz schlüssig 101 , 
so daß dieser erste Grund der weniger wichtige ist. Immerhin können wir 
festhalten, daß eine Anpassung an die Ideen von Savage erst dann erfolgt 
wäre, wenn man in LR* die Wendung : „so kann eine Auswertung dieses 
Resultates in der Weise erfolgen“ durch die wesentlich schärfere ersetzen 
würde: „so soll die einzige Auswertung dieses Resultates darin bestehen“. 

Zweitens ist zu bedenken, daß eine Auswertung im Licht der statisti- 
schen Daten u. U. deshalb nicht erfolgt, weil die neuen Resultate das ursprüng- 
liche statistische Datum seihst erschüttern. Wie wir von früher her wissen, kön- 
nen die im Datum enthaltenen Oberhypothesen ihrerseits in Frage gestellt, 
getestet und evtl, auch verworfen werden. Dann brauchen die beschriebenen 
relativen Likelihoods keine Leitfäden mehr zu sein; denn diese Likelihoods 
wurden ja unter Zugrundelegung der unerschütterten und um ein experimentel- 
les Resultat erweiterten statistischen Daten gewonnen. Wieder zeigt sich, 
daß für die ,theoretische c Statistik die relativen Likelihoods nicht immer der 
Weisheit letzter Schluß sind, wie für die ,subjektivistische c Statistik. 

101 So etwa ein Beispiel, das A. S. Fraser in [Sufficiency] gegeben hat. 
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(7) Der zuletzt angedeutete Aspekt muß noch genauer zur Sprache 
kommen. Man könnte vom Problem des statistischen Datums überhaupt spre- 
chen oder auch vom Problem der unerwarteten Hypothese . Ein ganz entschei- 
dender Differenzpunkt zwischen theoretischer und subjektiver Statistik 
besteht darin, daß die letztere überhaupt kein Analogon zum Begriff des 
statistischen Datums kennt. Die Subjektivisten meinen, sie brauchten 
keinen derartigen Begriff, und dies sei gerade ein Vorzug ihrer Theorie. Ist 
der Begriff des statistischen Datums eine unnötige Konzession an den praktisch arbei- 
tenden Statistiker oder bildet er einen unverzichtbaren Bestandteil einer adäquaten 
Rekonstruktion des statistischen Schließens ? Es soll jetzt gezeigt werden, daß 
man bei Verzicht auf diesen Begriff ins Uferlose stürzt. 

Zunächst ein konkretes Beispiel zur Illustration. Eine Person testet ver- 
schiedene Alternativen über die Wahrscheinlichkeitsverteilungen für 
Wurfergebnisse mit einem bestimmten Würfel. Eine dieser Hypothesen 
kann z.B. in der Annahme einer Gleichverteilung, also der Wahrscheinlich- 
keit 1/6 für jede der 6 Augenzahlen bestehen; eine andere in der Annahme 
0,2 für die Augenzahl 6 und Gleichwahrscheinlichkeit (nämlich 0,16) für 
die übrigen 5 Augenzahlen usw. Zum statistischen Datum unserer Person 
gehört die Annahme, daß eine Binomialverteilung vorliegt. Dem Testenden 
braucht es gar nicht bewußt zu sein, daß er in seinem Datum stillschweigend 
von einer statistischen Oberhypothese, nämlich der Unabhängigkeitsan- 
nahme, Gebrauch macht. Doch dies ist ein psychologisches Faktum. Jeden- 
falls kann es ihm bewußt werden, daß er diese Oberhypothese als gültig 
voraussetzt, und es können in ihm Zweifel an der Richtigkeit dieser Ober- 
hypothese auf kommen. Als psychischer Vorgang kann beides ineinander- 
fließen. 

Was uns interessiert, ist die Art und Weise, wie sich solche Zweifelsgründe 
empirisch manifestieren . In unserem Beispiel könnte dies etwa so aussehen: 
Die Person nimmt Serien von Wurfreihen vor und macht dabei eine höchst 
seltsame Beobachtung. Es kommen Einer-, Zweier-, Vierer-Folgen usw. 
von Fünferwürfen vor, aber niemals eine Dreierfolge. Wo immer er eine 
Teilfolge von der Art: 555 beobachtet, verlängert sich diese Dreierfolge zu 
der Viererfolge: 5555, jedoch zu keiner anderen. Was aber heißt es, daß 
diese Ergebnisse seltsam sind? Sie sind nur seltsam unter der Annahme , daß 
Unabhängigkeit vorliegt . Die beobachteten Wurfreihen lassen an dieser An- 
nahme berechtigte Zweifel aufkommen. Es kann der Fall sein, daß die 
Person eine geeignete Abhängigkeitshypothese findet, und die Seltsamkeit 
verschwindet. Eine Hypothese von dieser Art nennen wir unerwartete Hypo- 
these , weil sie den durch die ursprünglichen Daten gesetzten Rahmen sprengt. 

Für die Likelihood-Testtheorie bietet die Überprüfung statistischer 
Oberhypothesen, sobald diese unter Zugrundelegung eines anderen statistischen 
Datums z ur Diskussion gestellt werden , keine prinzipiellen Schwierigkeiten. 
Dagegen darf nicht übersehen werden, daß diese Theorie keine Rationalisierung 
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des Verfahrens liefert , welches einem statistischen Datum führt. Verschiedene 
Faktoren wurden früher angeführt: Einfachheit, Analogie, bereits akzep- 
tierte physikalische Theorie. Diese Hinweise wurden aber nicht weiter prä- 
zisiert. Es muß daher zugestanden werden, daß hier eine Rationalitätslücke 
besteht. Dies zeigt sich deutlich, wenn man den Testvorgang der Ober- 
hypothese genauer ins Auge faßt. Es kann z. B. ein Konflikt bestehen zwi- 
schen dem, was die Daten lehren, wenn sie testtheoretisch ausgewertet 
werden, und den Einfachheitsüberlegungen, die für die Annahme der ur- 
sprünglichen Oberhypothese sprechen. Denn Abhängigkeitsannahmen 
führen bekanntlich zu viel komplizierteren Hypothesen als z. B. Hypothe- 
sen, welche nur den Parameter einer Binomialverteilung betreffen. So kann 
es durchaus der Fall sein, daß sich , in einem Bild gesprochen, die , Macht der 
Einfachheit c gegen schwache Daten , die für irgend eine Art von Abhängigkeit 
sprechen, durchsetzt. Die Daten können aber andererseits so überzeugend 
sein — z. B. wenn in mehreren tausend Würfen keine Dreierfolge 555 beob- 
achtet worden ist, die sich nicht zu einer Viererfolge 5555 fortsetzte — , daß 
sie sich gegen alle Analogie- und Einfachheitsüberlegungen durchsetzen, 
welche für die Unabhängigkeitsannahme sprechen. 

Die theoretische Statistik muß vorläufig zugestehen, daß sie für derartige 
Konfliktsituationen überhaupt über keine präzisen Kriterien verfügt. Ge- 
nau genommen sind es zwei verschiedene Fragen, die der Klärung harren : 
(1) An welchem Punkt der Experimente soll der aufkommende Zweifel an 
der Richtigkeit eines Teils der statistischen Daten (z. B. der Unabhängig- 
keitsannahme) dazu Anlaß geben, diesen Teil der Daten seihst in Frage z u 
stellend (2) Wenn die Infragestellung erfolgt ist, in welcher Weise soll dann eine 
Abwägung zwischen den Gründen , die für die ursprünglichen Daten ins Feld geführt 
werden können , und den empirischen Befunden , welche gegen sie sprechen , erfolgen ? 
Wir haben ja gerade gesehen, daß z. B. Einfachheitsüberlegungen nicht 
nur bei der ursprünglichen Wahl der Daten mitbestimmend sind, sondern 
auch bei der Frage ihrer Beibehaltung eine Rolle spielen (was wir durch das 
Bild ausdrückten, daß sie sich gegen ,schwache Daten c durchzusetzen ver- 
mögen). 

Die subjektive Statistik kann in diese beiden Rationalitätslücken hinein- 
stoßen und den Anspruch erheben, die angedeuteten Schwierigkeiten zu 
vermeiden. Schlagwortartig könnte man die subjektivistische These so 
formulieren : Es gibt kein Problem der unerwarteten Hypothese. 

Die vorgeschlagene Lösung würde vermutlich ungefähr so aussehen: 
Die ursprünglichen subjektiven Wahrscheinlichkeiten aller Abhängigkeits- 
hypothesen werden im vorliegenden Fall sehr niedrig sein (dies wird sich 
in niedrigen Wettquotienten wider spiegeln). Die geschilderten neuen Beob- 
achtungen legen Abhängigkeitshypothesen nahe, was in entsprechenden 
Likelihood-Verhältnissen seinen Niederschlag findet. Dadurch wird eine 
Modifikation der ursprünglichen Wettquotienten in der Richtung auf eine 
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Erhöhung erzwungen. Die , unerwartete Hypothese*, welche ursprünglich 
für recht unwahrscheinlich gehalten wurde, erhält schließlich eine hohe 
Wahrscheinlichkeit (einen hohen Wettquotienten). 

Wesentlich für diesen Lösungsvorschlag ist die Voraussetzung, daß die 
fragliche subjektive Wahrscheinlichkeit zwar sehr niedrig war, daß sie aber 
von 0 verschieden gewesen ist . Denn nur unter dieser Voraussetzung können 
sich die Wahrscheinlichkeiten aufgrund späterer Erfahrungen erhöhen. Der 
Wert 0 bleibt hingegen 0, womit auch immer er später multipliziert werden 
mag. 

Hacking zitiert 102 zu diesem Punkt eine höchst problematische Äuße- 
rung von Savage. Danach hat jemand, wenn er auf, abnorme Daten* stößt, 
immer schon effektive oder latente Zweifel an der Hypothese gehegt. Was, 
so fragt Hacking, sind , latente Zweifel* ? Es gibt hier zwei Deutungsmög- 
lichkeiten: Entweder der Ausdruck „latenter Zweifel“ wird so definiert , daß 
er immer dann vorliegt, wenn jemand später tatsächlich zweifelt. Dann ist 
die Behauptung von Savage, daß jedesmal, wenn jemand an etwas ef- 
fektiv zweifelt, bereits ein latenter Zweifel vorhanden gewesen sein muß, 
nicht informativ, sondern ein leerer Pleonasmus (es ist einfach ein lingui- 
stischer Beschluß , so %u reden , daß immer bei Auftreten eines Zweifels bereits 
ein latenter Zweifel vorhanden war). Oder aber „latenter Zweifel** soll so 
viel bedeuten wie „geringer effektiver Zweifel**. Dann ist die Behauptung 
tatsächlich informativ und im Einklang mit der geschilderten subjektivisti- 
schen Denkweise. 

Doch dürfte die Behauptung in dieser zweiten, allein interessierenden 
Deutung falsch sein. Man könnte vielleicht geradezu die brutale These auf- 
stellen, daß die subjektivistische Theorie die Menschen da^u zwingen will, entweder 
Narren oder Starr köpfe sein . Wer angesichts potentiellen künftigen Zwei- 

fels in keiner Lebens Situation einer Sache sicher ist, der ist ein Narr. Und 
wer, da er einmal seiner Sache sicher war, keinesfalls bereit ist, aufgrund 
neuer Fakten seine frühere Auffassung zu revidieren, ist ein Starrkopf oder 
gar ein Fanatiker. 

Es könnte der Rettungsversuch unternommen werden, die für eine Per- 
son P geltende Sicherheit, daß A nicht eintreten wird, nicht mit der sub- 
jektiven Wahrscheinlichkeit 0 des Eintretens von A für P gleichzusetzen. 
Aber dieser Rettungsversuch würde dem Subjektivisten zum Verhängnis 
werden. Er würde damit sein Explikandum preisgeben . Mit der subjektiven 
Wahrscheinlichkeit sollte doch gerade der Begriff des vernünftigen Glau- 
bensgrades präzisiert werden! 

Einen Grund gibt es allerdings, der dagegen spricht, den Begriff der 
Sicherheit mit dem Wettverhalten in Zusammenhang zu bringen. Wenn ich 
heute früh, so wie täglich, meine Armbanduhr am linken Handgelenk be- 

102 [Statistical Inference], S. 223. 
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festigt habe und diese Uhr jetzt dort sowohl sehe als auch spüre, werde ich 
absolut sicher sein, daß sie sich dort befindet. Werde ich auch bereit sein, 
z. B. mein ganzes Vermögen gegen 5, — DM zu wetten, daß sie sich jetzt 
dort befindet ? Warum nicht, möchte man meinen; ich könnte ja dadurch auf 
billige Weise zu 5, — DM kommen! Hacking bemerkt, daß ich vor einer 
solchen Wette vermutlich zurückschrecken werde, wenn sich mir ein düste- 
rer Geselle mit einem diabolischen oder zumindest hypnotischen Blick 
nähert, um mir diese Wette anzubieten. Man kann wohl darüber hinausgehen 
und sagen: Es bedarf gar keines hypnotischen Blickes; als vorsichtiger 
Mensch werde ich, selbst wenn die Situation scheinbar gan% harmlos aussieht , 
bei einem derartigen Wettangebot den Verdacht hegen, daß irgendeine von 
mir nicht durchschaute Teufelei im Spiel sei und die Wette nicht akzeptie- 
ren. 

Anerkennt man dies, daß eine beginnende Wettsituation selbst Zweifels- 
ursache sein kann, so wird das subjektivistische Vorgehen von vornherein 
blockiert. Der Subjektivist muß zu einer Idealisierung des Wettverhaltens 
zurückgreifen. Dann aber entsteht die ursprüngliche Schwierigkeit, daß 
„ Sicherheit , daß A nicht = subjektive Wahrscheinlichkeit 0, daß A schon “ niemals 
in „positive Wahrscheinlichkeit , daß A schon“ übergehen kann, was immer die 
Erfahrung lehren mag. 

Wenn man dem Subjektivisten entgegenkommt und ihm auch dieses 
Zugeständnis macht, daß eine rationale Person nur dann zu positiven Über- 
zeugungen gelangen kann, wenn ihre Apriori- Wettquotienten von 0 ver- 
schieden waren, so entsteht eine neue Schwierigkeit. Dies sei wieder am 
Würfelbeispiel illustriert: Wenn zunächst nur Hypothesen unter der Vor- 
aussetzung der Unabhängigkeit in Erwägung gezogen werden, so dürfen 
die Wettquotienten in ihrer Summe nicht den Wert 1 ausmachen; denn es 
muß ja laut subjektivistischer Voraussetzung andere, auf einer Abhängig- 
keitsannahme beruhende Hypothesen geben, für die der Apriori-Wettquo- 
tient nicht 0 ist. Wenn wir fragen, welche und wieviele mögliche Hypothesen wir 
ins Auge fassen müssen, so geraten wir nun tatsächlich ins Uferlose. Der 
Begriff des statistischen Datums mit seinem restringierenden Effekt steht ja 
nicht mehr zur Verfügung. Es ist bereits die Frage, ob der Begriff der Menge 
aller überhaupt möglichen statistischen Hypothesen einen mengentheoretisch sinnvollen 
Begriff bildet . Sicherlich aber ist die über alle diese Hypothesen laufende 
Likelihood-Funktion nicht definierbar (die Anzahl der Elektronen im Uni- 
versum reicht nicht aus, um sie anzuschreiben) ; und selbst wenn sie definier- 
bar wäre, könnte man sie nicht praktisch handhaben. 

Dies führt zu einer rein logischen Schwierigkeit, auf die Barnard hin- 
gewiesen hat: Zu der Ausgangsliste der potentiellen Hypothesen h ly h 2 , . . . 
muß Savage noch eine hinzufügen: „oder sonst irgendetwas“. Was aber 
ist die Wahrscheinlichkeit dafür, daß der Wurf mit diesem Würfel zum 
Resultat 5 führt, sofern die Hypothese „ irgend etwas sonst“ vorausgesetzt 
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wird? Die Frage ist nicht sinnvoll und kann daher auch nicht sinnvoll 
beantwortet werden. Nur wenn die Hypothese scharf charakterisiert ist, 
läßt sich die Wahrscheinlichkeit berechnen. Der Verzicht auf den Begriff 
des statistischen Datums, auf den die Subjektivisten stolz sind und der sich 
zunächst als Vorteil zu erweisen schien, führt zu dem unmöglichen, weil 
Undefinierten und nicht definierbaren Begriff der Likelihood von y etwas sonst 6 . 

Ich neige daher dazu, der Auffassung von Hacking zuzustimmen, daß 
die subjektivistische Theorie am Problem der unerwarteten Hypothese scheitert. Wie 
wir feststellen mußten, superponieren sich sogar zwei Schwierigkeiten : Da 
eine Totalität von Hypothesen mit einer Mächtigkeit von höherer Ordnung 
zugrundegelegt wird, muß mit einem Undefinierten Likelihood-Begriff, also 
in Wahrheit mit einem Pseudobegriff, gearbeitet werden. Und bereits an 
einer früheren Stelle traten bei den Fällen, in denen Sicherheit sich in Zwei- 
fel oder Unglaube in Glauben verwandelt, Schwierigkeiten auf. Der schein- 
bar so klare und geradlinige ,Weg des rationalen Wettverhaltens' verlor sich 
im statistischen Fall (zum Unterschied vom Fall der personellen Wahr- 
scheinlichkeit) in einem dämmerigen Labyrinth von falschen Behauptungen, 
zweifelhaften Analogien und wirklichkeitsfremden Idealisierungen. 

Das Problem der unerwarteten Hypothese scheint allerdings, wie be- 
reits die obige Bemerkung über eine Rationalitätslücke andeutete, eine 
generelle Schwierigkeit aufzudecken, mit der jede Theorie der Prüfung sta- 
tistischer Wahrscheinlichkeitsaussagen konfrontiert ist. Sie liegt darin, daß 
man statistische Hypothesen nur unter der Annahme überprüfen kann, daß 
man andere statistische Hypothesen für richtig hält. Mancher wird darin so 
etwas wie eine Paradoxie erblicken. Der Schein einer Paradoxie verschwin- 
det am ehesten, wenn man den Begriff der Chance als theoretischen Begriff 
deutet und z. B. zum physikalischen Kraftbegriff in Analogie setzt. Auch 
Kräfte kann man vermutlich nur messen, wenn man zugleich Annahmen 
über andere Kräfte macht. 

Sehen wir von dem zuletzt vorgebrachten Einwand ab, so ist es frag- 
lich, ob die vorgebrachten Einwendungen wirklich entscheidend sind oder ob 
sie nur auf Schwierigkeiten hinweisen, die sich vielleicht doch im Rahmen der 
subjektivistischen Theorie bewältigen lassen. Am überzeugendsten bleibt 
dann wohl noch das Bedenken (3), wenn man darin „Einzelwissen- 
schaften" durch „Physik" ersetzt. Im Abschnitt 2 der Einleitung des ersten 
Halbbandes wurde auf die Notwendigkeit einer radikalen Subjektivierung der 
Naturwissenschaften hingewiesen, die unausweichlich sein dürfte, wenn sich 
die personalistische Auffassung in bezug auf den Begriff der statistischen 
Wahrscheinlichkeit durchsetzen sollte. 

Der Wissenschaftstheoretiker wird, bevor er diese bittere Pille schluckt, 
nach einer anderen Lösung Umschau halten. Im folgenden Unterabschnitt 
sollen die interessantesten Versuche dieser Art, die bei der Propensity- 
Deutung von Popper ihren Ausgang nahmen, diskutiert werden. 
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12.b Die Propensity-Interpretation der statistischen Wahrschein- 
lichkeit: Popper, Giere und Suppes. Philosophen, welche sich mit der 
Grundlegung der Wahrscheinlichkeitstheorie beschäftigen, haben heute 
zunehmend die Neigung, den personalistischen Standpunkt zu akzeptieren. 
Die großartigen Leistungen de Finettis und Savages auf der einen Seite, 
die logischen Schwierigkeiten der Häufigkeitstheorie auf der anderen tragen 
dazu gleichermaßen bei. Die heutige Mode, statistische Probleme rein ent- 
scheidungstheoretisch zu behandeln, unterstützt diese Tendenz. Philo- 
sophen hingegen, welche vorwiegend an der Anwendung der Wahrschein- 
lichkeitstheorie in der Physik, und da wieder vor allem in der modernen 
Physik, interessiert sind, gehen in der Regel von einer objektivistischen Kon- 
zeption der statistischen Wahrscheinlichkeit aus. Die Schwierigkeiten der 
Limestheorie veranlaßten allerdings die gründlicheren Geister unter ihnen 
immer wieder, nach neuen Wegen Umschau zu halten. 

Unabhängig von Braithwaite hat K. Popper vorgeschlagen, statisti- 
sche Wahrscheinlichkeiten als theoretische Dispositionen bestimmter Art zu 
interpretieren. Während bei der Behandlung des theoretischen Begriffs der 
Wahrscheinlichkeit für Braithwaite die Testproblematik und für Hacking 
die damit in engem Zusammenhang stehende Bestätigungsproblematik im 
Vordergrund steht, geht es Popper vor allem darum, die quantenmechani- 
schen Phänomene zu entsubjektivieren und einen brauchbaren Begriff der phy- 
sikalischen Wahrscheinlichkeit einzuführen. Den Begriff der statistischen Wahr- 
scheinlichkeit versucht er daher weder wie Braithwaite durch eine V erwer- 
fungsregel für statistische Hypothesen noch wie Hacking durch einen 
tieferliegenden, weil für die Rechtfertigung von Testregeln benötigten 
Stützungsbegriff zu charakterisieren, sondern durch eine neue physikalischeHypo- 
these , von der Popper selbst sagt, daß es sich vielleicht um eine metaphysische 
Hypothese handle. 

Die Gründe, die Popper dazu bewegten, von der Limestheorie abzu- 
rücken, sind bereits in Abschnitt l.b unter Punkt (11) geschildert worden 
und brauchen daher nicht hier wiederholt zu werden. Es sei nur daran er- 
innert, daß die scheinbar geringfügige Modifikation der frequentistischen 
Theorie, die sich nach Poppers Überzeugung aus seiner Kritik ergibt, in 
Wahrheit eine neue Deutung impliziert: an die Stelle der Dimestheorie tritt 
die Propensity-Theorie der statistischen Wahrscheinlichkeit . Nach der Auffassung 
der ersteren sind Wahrscheinlichkeiten Merkmale gegebener Folgen von 
Ereignissen, nach der Auffassung der letzteren sind sie Eigenschaften der 
experimentellen Anordnungen (“generating conditions”), welche derartige 
Folgen hervorrufen. Diese Auffassung wurde den ganzen Betrachtungen 
dieses Teiles III zugrundegelegt. 

Mit Nachdruck wendet sich Popper gegen den potentiellen Vorwurf, 
daß die Deutung statistischer Wahrscheinlichkeiten als Neigungen oder als 
Tendenzen, eben als Propensities, einen Rückfall in eine metaphorische 
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Sprechweise oder in einen okkulten Anthropomorphismus darstelle (ver- 
gleichbar etwa mit vitalistischen Theorien, die einen Begriff der Entelechie 
verwenden). Denn für diesen Begriff gibt es ein (hypothetisch angenom- 
menes) Gesetz. Da vor allem diese These Poppers von Suppes in seiner wei- 
ter unten geschilderten Kritik angegriffen wird, sei die Diskussion dieses 
Punktes vorläufig zurückgestellt. 

Popper beansprucht auch, mit der Propensity-Deutung eine der für die 
frequentistischen Theorien hartnäckigsten Probleme gelöst zu haben: das 
Problem der Wahrscheinlichkeit von Ein^elereignissen . Die Behauptungen, daß 
die Wahrscheinlichkeit, mit diesem Würfel beim nächsten Wurf eine 6 zu 
werfen, 1/6 betrage, muß innerhalb der Limestheorie umgedeutet werden zu 
der Aussage, daß sich die relativen Häufigkeiten der Sechserwürfe mit die- 
sem Würfel in einer immer länger werdenden Folge von Würfen dem Grenz- 
wert 1 /6 nähere. Da wir aber nicht am Grenzwert, sondern am Ausgang des 
nächsten Versuchs interessiert sind, entsteht die Frage, warum denn das , was 
beim Grenzübergang geschieht , für den nächsten Fall von Relevant j sein soll . Die 
früher geschilderte Hackingsche Diskussion der Einzelfall-Regel hat die 
Schwierigkeiten aufgezeigt, auf frequentistischer Grundlage auf diese Frage 
eine vernünftige Antwort zu finden. Nach Popper besteht diese Schwierig- 
keit für die Propensity-Deutung nicht; denn nach seiner Deutung handelt 
es sich immer um Propensities der Realisierung im Ein^elfalL 

An diesem Punkt setzt Giere mit seiner Kritik ein. Er weist zunächst 
nach, daß Popper den Gedanken einer Einzelfall-Propensity nicht konse- 
quent durchhält, sondern zwischen zwei Deutungen schwankt und sich da- 
durch (überflüssigerweise) mit Schwierigkeiten der frequentistischenTheorie 
belastet. Während er z. B. in [Propensity 2] auf S. 28 seinen Begriff aus- 
drücklich dahingehend erläutert, daß es sich um “propensities to reaüze 
singulär events” handle, sagt er in [Without] auf S. 32, daß wir die Propen- 
sity eines Würfels, zu einer 6 zu führen, durch die (potentielle) relative 
Häufigkeit messen, mit der diese Augenzahl in einer potentiell unendlichen 
Folge von Wiederholungen des Experimentes eintrifft. 

Demgegenüber versucht Giere in [Single Case], den Gedanken einer 
Einzelfall-Propensity konsequent durchzuführen. Sein Motiv dafür ist klar: 
Wenn wirklich die Propensities zur Realisierung von Einzelereignissen 
fundamental sind, dann lassen sich daraus die Propensities für die Erzeu- 
gung von Häufigkeiten in Versuchsfolgen gewinnen. Die Umkehrung gilt 
jedoch nicht. Die Begründung dieser zweiten Behauptung fällt zusammen 
mit dem Nachweis, daß die Einzelfall-Regel auf frequentistischer Basis nicht 
herleitbar ist, eine Tatsache, an die im vorletzten Absatz gerade rückerin- 
nert worden ist. Die Last des Argumentes beruht somit auf der ersten Be- 
hauptung. 

Hier handelt es sich nun um nichts weiter als um eine logische Generali- 
sierung, Um dies einzusehen, muß man beachten, daß Giere die Einzelfall- 
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Interpretation in dem Sinn ganz ernst nimmt, daß er sich von den beobacht- 
baren endlichen Häufigkeitsfolgen sozusagen in die entgegengesetzte Rich- 
tung bewegt als die Limestheoretiker: während die letzteren zum Häufig- 
keits gren^wert übergehen, geht er zur Betrachtung individueller Versuche über. 
Um keine Konfusion mit unserem früheren Symbolismus hervorzurufen, 
möge eine vorliegende experimentelle Anordnung EA heißen. Sie er- 
zeuge während der Dauer ihrer Existenz endlich viele Resultate. Es wird 
ihr eine Wahrscheinlichkeitsfunktion P zugeordnet. Eventuelle Unterschiede 
in dem, was wir früher Versuchstypen nannten, seien im gegenwärtigen 
Kontext vernachlässigt. Als unmittelbare physikalische Bedeutung von 
P(E ) = r wird vorgeschlagen : 

(a) Die Stärke der Propensity von EA, beim Versuch V an EA das 
Ergebnis E zu erzeugen, beträgt r. 

Diese Aussage, welche sich auf einen ganz bestimmten Versuch bezieht, 
kann für beliebige Versuche verallgemeinert werden : 

(b) Für jeden beliebigen Versuch gilt, daß die Stärke der Propensity von 
EA, bei diesem Versuch an EA das Ergebnis E zu erzeugen, 
r beträgt. 

Da P(E) = r oft im Sinn von (b) verstanden wird, erweist sich diese 
Gleichung als äquivok. Die Zweideutigkeit wird vermieden, wenn man aus- 
schließlich die Einzelfall-Deutung ( a ) zugrunde legt. 

Da Popper in seinen späteren Arbeiten, insbesondere in [Without], die Er- 
zeugung von Versuchsfolgen zum Ausgangspunkt nimmt, setzt er sich, wie Giere 
hervorhebt, dem Einwand aus, kein Kriterium dafür angegeben zu haben, was als 
Wiederholung desselben Experimentes zu gelten habe. Zu einem ähnlichen kritischen 
Ergebnis ist L. Sklar in [Dispositional Property] gelangt. Es handelt sich hierbei 
um nichts anderes als um das alte Problem der gichtigen Bezugsklasse 4 , für wel- 
ches auch Popper keine Lösung anbietet. 

Es scheint mir allerdings, daß man bezüglich dieses Punktes zwei Problem- 
stellungen scharf voneinander unterscheiden muß. Nur die eine gehört, in Gieres 
Sprechweise, zum ontologischen Problem, nämlich zu der Frage : was sind statistische 
Wahrscheinlichkeiten ?, während das andere ein epistemologisches Problem ist, nämlich 
jenes, welches im Zusammenhang mit der Einzelfall-Regel auftritt: wie lassen sich 
statistische Hypothesen für statistische Begründungen verwenden ? Diese letztere Frage 
wird in Teil IV diskutiert. Hempels Theorie der statistischen Erklärung von ak- 
zeptierten Tatsachen wird dort als Theorie der statistischen Begründung von 
nichtakzeptierten Tatsachen uminterpretiert. Das , Problem der Bezugsklasse 4 , 
welches Hempel im Rahmen seiner Untersuchungen das Problem der Mehrdeutig- 
keit statistischer Systematisierungen nennt, tritt dort als ein spezielles epistemologisches 
Problem in Erscheinung, welches die korrekte Anwendung akzeptierter statisti- 
scher Hypothesen für die Zwecke des statistischen Schließens betrifft. 

Doch hat Giere meines Erachtens recht, daß dieses Problem außerdem bei der 
Einführung des statistischen Wahrscheinlichkeitsbegriffs auftritt, solange man die 
Propensity als eine Tendenz zur Erzeugung von Folgen mit bestimmten Häufig- 
keitsmerkmalen deutet, also nicht Ernst macht mit dem Begriff der Eintel fall- 
Propensity. 
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Da der Begriff der relativen Häufigkeit bei der Einzelfall-Interpretation 
(a) in der Definition überhaupt nicht auftritt, scheint für Giere das Problem 
zu entstehen, den Zusammenhang von Propensitj und relativer Häufigkeit 
explizieren. Dieses Problem muß in zwei Teilfragen zerlegt werden. Erstens 
geht es um die Klärung dessen, wie sich die Interpretation (a) mit Folgen 
von Versuchen in Verbindung bringen läßt. Hier kann an das in der Statistik 
übliche Verfahren angeknüpft werden 103 , jedem einzelnen Versuch einer 
Folge von n Versuchen eine Zufallsfunktion zuzuordnen, so daß man eine 
Folge von n Zufallsfunktionen jt l9 • • •> Vn mh den Wahrscheinlichkeits- 
verteilungen P({co | (cd) = x}) bzw. mit den Wahrscheinlichkeitsdichten 
f n für / = 1, . . ., n erhält, welche die Propensitj- Verteilungen beim i-ten Versuch 
festlegen . Daß die Versuche voneinander unabhängig zu sein haben, ist nicht 
probabilistisch zu explizieren — dies würde ja unweigerlich in einen Zirkel 
hineinführen — , sondern besagt lediglich, daß zwischen dem Resultat eines 
beliebigen Versuchs der Folge und der Propensitj-Verteilung bei einem anderen Ver- 
such der Folge keine kausale Wechselwirkung besteht (was man natürlich nicht 
,definitiv wissen", sondern nur hypothetisch annehmen kann). Wie man 
unmittelbar erkennt, ist dieser Gedanke identisch mit dem früher erwähnten 
Lösungsvorschlag zum Einwand (7) in Abschnitt l.b. (Es sei daran 
erinnert, daß es sich dabei nicht nur um einen Einwand gegen die Limestheo- 
rie, sondern gegen jede , objektivistische" Theorie handelte.) 

Die zweite Frage betrifft das Problem, ob es möglich sei, aus Annahmen 
über Einzelfall-Propensities Aussagen über absolute bzw. relative Häufig- 
keiten logisch z u deduzieren. Die Antwort ist negativ. Gegeben sei eine experi- 
mentelle Anordnung EA und eine Folge von unabhängigen Versuchen, 
so daß die Propensity des Erfolges bei jedem Versuch gleich $ ist. Wie in 
Abschn. l.b bezeichnen wir die Folge von relativen Häufigkeiten des Er- 
folges mit /i,/ 2 , . • .. Die Aussage, daß diese Folge den Grenzwert # be- 
sitzt, d. h. die Aussage : 

AfiV N/\m[m> < e] 

ist nicht beweisbar. Dies ist kein Nachteil, sondern ein Vorzug dieses theore- 
tischen Ansatzes ! Denn diese Nichtbeweisbarkeit bedeutet nichts Geringeres , als 
daß die Einzelfall-Propensitj-Interpretation der statistischen Wahrscheinlichkeit 
dem entgeht , was ich in Abschnitt 1 .b als tödlichen Einwand (8 ) gegen die Limestheorie 
be^eichnete. Zum Unterschied von dieser letzteren Theorie kann man der 
Propensitj-Deutung nicht den Vorwurf machen , daß sie praktische Sicherheit mit 
logischer Notwendigkeit verwechsle. Die angeführte Folge relativer Häufig- 
keiten braucht daher im Sinn der v. Misesschen oder Reichenbachschen 
Definition keine Wahrscheinlichkeitsfolge zu sein. Die Propensity-Inter- 
pretation liefert also nicht etwa nur eine andere intensionale Deutung der 

103 Vgl. Abschnitt 10. a sowie für die dabei benützten Grundbegriffe Teil 0, 
Kap. B, Abschnitt 3. a und Kap. C, Abschnitt 6. a. 
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statistischen Wahrscheinlichkeit. Vielmehr ist der Begriff der statistischen 
Wahrscheinlichkeit in der Propensity-Theorie nicht extensionsgleich mit dem 
Begriff der statistischen Wahrscheinlichkeit in der Limestheorie. 

Was die Theorie Poppers betrifft, so zeigt dieses Resultat allerdings, daß er 
nicht nur seine frühere Deutung des Begriffs der statistischen Wahrscheinlichkeit 
geändert hat, sondern daß er auch seine epistemologischen Thesen über statistische 
Wahrscheinlichkeit revidieren muß. Weder die auf S. 145 der Logik der Forschung 
stehende Aussage, daß ein Wahrscheinlichkeitsansatz mit einer unendlichen 
Ereignisfolge im Widerspruch stehen könne, noch die zwei Seiten später zu findende 
These, daß aus Wahrscheinlichkeitsannahmen Existenzbehauptungen logisch folgen , 
ist weiterhin haltbar. Darauf habe ich bereits in [Induktion] auf S. 40 hinge- 
wiesen. Nur nebenher sei erwähnt, daß damit Poppers Abgrenzungskriterium 
zwischen Erfahrungswissenschaft und Metaphysik bei statistischen Hypothesen 
versagt, sofern man die von ihm selbst entworfene Propensity-Theorie akzeptiert 
und dabei mit der Einzelfall- Propensity, so wie Giere, Ernst macht. 

Dagegen läßt sich ein probabilistischer Zusammenhang zwischen den 
Gliedern^ der Häufigkeitsfolge und # herstellen: Wenn P ein Maß für die 
Propensity der zusammengesetzten Versuche ist, die aus den jeweils ersten 
m ursprünglichen Versuchen bestehen, so gilt das schwache Gesetz der 
großen Zahlen in der Gestalt : 

A e A <5 V N Am [m > N-> PQf n — d | < e) > (1 — d)]. 

In Abschnitt 5 seines Aufsatzes macht Giere einige philosophische Bemerkun- 
gen über die Unverträglichkeit der Einzelfall- Propensity mit dem, was er die 
Humesche Metaphysik und Epistemologie nennt. Diese Bemerkungen treffen sich 
inhaltlich mit den Feststellungen des vorletzten Absatzes. 

So wie nach der ‘Humeschen Metaphysik * Kausalgesetze nur in de-facto- Ver- 
knüpfungen bestehen, so bestehen probabilistische Gesetze in faktischen relativen 
Häufigkeitsverteilungen. Da jedoch zwischen Einzelfall- Propensity und relativen 
Häufigkeiten kein unmittelbarer Zusammenhang besteht, nicht einmal ,beim 
Grenzübergang 4 , so können Propensity- Aussagen nicht als probabilistische Gesetze im 
Humeschen Sinn gedeutet werden. 

Nach der Humeschen Erkenntnistheorie kann auf der Grundlage endlich vieler 
Daten die Wahrheit keiner Gesetzesannahme eingesehen werden. Nennen wir ein 
Wesen, welches die gesamte Geschichte des Universums zu überschauen vermöchte, 
einen allbeobachtenden Geist (zum Unterschied von einem allwissenden Geist). 
Nach Hume würde ein allbeobachtender Geist alle Naturgesetze kennen. Für stati- 
stische Gesetze in der Propensity-Deutung würde dies nicht gelten : der , Allbeob- 
achter 4 würde zwar alle Häufigkeitsgrenzwerte von Folgen kennen; trotzdem 
könnten ihm die Einzelfall- Propensities jener experimentellen Anordnungen, 
welche die betreffenden Folgen erzeugten, unbekannt sein. 

Wie bereits in Abschnitt 2 der Einleitung (Erster Halbband) kurz er- 
wähnt worden ist, macht Giere — in diesem Punkt Popper folgend — dar- 
auf aufmerksam, daß ein personalistischer Wahrscheinlichkeitstheoretiker 
außerstande ist, dem Indeterminismus der modernen Physik gerecht zu 
werden. Der personalistischen Theorie , für die jede Wahrscheinlichkeit subjek- 
tive Ungewißheit ausdrückt, fehlt der Begriffsapparat, um % wischen jener Unge- 
wißheit , die auf mangelnder Information beruht , einerseits und jener gan% anderen 
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Form von Ungewißheit, die durch kein physikalisch mögliches Wachstum unseres 
gegenwärtigen Wissens beseitigt werden könnte, %u unterscheiden. Da dies aber gerade 
der Unterschied zwischen physikalischem Determinimus und Indeterminis- 
mus ist, müssen die Bayesianer alle Ungewißheit auf Informationslücken zurück- 
führen und somit den Determinismus akzeptieren . Giere erblickt darin offenbar 
eine indirekte Stütze für die Propensity-Interpretation. Denn das Zuge- 
ständnis, daß es Ungewißheit gibt, die nicht auf die Begrenztheit der mensch- 
lichen Information zurückzuführen ist, impliziere nach dieser Überlegung 
die Anerkennung einer physikalischen, nichtpersonellen Wahrscheinlich- 
keit. 

Wie ich ebenfalls bereits in Abschnitt 2 der Einleitung andeutete, ist der 
Schluß in dieser Form nicht zwingend, da der Personalist stattdessen eine 
so radikale Subjektivierung der Naturwissenschaften in Kauf nehmen 
könnte, wie dies dort geschildert wurde. Es scheint mir daher, daß man nur 
sagen darf: Wenn personalistische Wahrscheinlichkeitstheoretiker, wie 
de Finetti und Savage, nicht bereit sind zu behaupten, daß Atomphysiker 
in Wahrheit über Physiker (und nicht über subatomare Entitäten) sprechen, 
so bleibt ihnen nur die Annahme eines metaphysischenDeterminismus übrig, 
der mit der heutigen Physik unverträglich ist. Immerhin glaube ich, daß 
auch diese dem Personalismus allein offenstehende Alternative genügt, um 
als indirekte Stütze der Propensity-Interpretation zp dienen. 

Viel radikaler als die Kritik Gieres an Popper, ja prima facie geradezu 
vernichtend ist die Kritik, welches Suppes in [Popper’s Analysis] an der 
Popperschen Konzeption geübt hat. Dennoch erweist sich auch seine Kri- 
tik im weiteren Verlauf als nicht destruktiv, sondern als in einem sehr wich- 
tigen Sinn konstruktiv. Suppes hat vor allem in der späteren Arbeit [New 
Foundations] angegeben, wie die entscheidende Lücke zu schließen ist, 
welche bei allen bisherigen Interpretationen der statistischen Wahrschein- 
lichkeit als einer theoretischen Größe festzustellen ist. 

Den Grundgedanken der Kritik von Suppes könnte man mittels des be- 
rühmten lateinischen Satzes ausdrücken: „Termini sine theoria nihil valent “. 
Dieser Satz besitzt allerdings nur die negative Berühmtheit, daß er von kei- 
nem mittelalterlichen oder neuzeitlichen Philosophen ausgesprochen wor- 
den ist, obwohl er längst hätte ausgesprochen werden sollen. (Tatsächlich 
habe ich diesen Satz, in einem ganz anderen Kontext, erstmals im Jahre 
1972 aus dem Munde von Herrn Prof. Y. Bar-Hillel vernommen.) Ge- 
meint ist einfach dies : Wenn ein Begriff als theoretische Größe bezeichnet 
wird, so muß man auch in der Lage sein, die Theorie selbst anzugeben , der diese 
Größe zu genügen hat. Wie lautet die , Theorie der Propensity 4 ? 

Eine Konfrontation der Popperschen Interpretation sowohl mit der 
personalistischen Auffassung als auch mit der Limestheorie möge die Be- 
deutung dieser Herausforderung von Suppes verdeutlichen. Wenn eine 
Größe eine Wahrscheinlichkeit genannt wird, so denkt man zunächst 
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daran, daß diese Größe in allen Anwendungen die Kolmogoroff- Axiome 
erfüllt 104 . Wie läßt sich dies rechtfertigen? In Teil II haben wir die Antwort 
kennengelernt, welche die Personalsten auf diese Frage geben : Die Axiome 
lassen sich mittels der Kohärenzforderung begründen. Die Antwort der Limestheo- 
retiker lautet zwar ganz anders. Doch enthält auch sie — wenn man sie 
allein unter dem Gesichtspunkt dieser einen Frage beurteilt (und daher von 
allen potentiellen Einwendungen gegen diese Theorie abstrahiert) — eine 
einwandfreie und logisch befriedigende Reaktion auf diese Frage, nämlich : 
Die Axiome folgen aus der Definition der statistischen Wahrscheinlichkeit als eines 
Grenzwertes relativer Häufigkeiten . (Für diesen Nachweis werden außer der 
formalen Logik nur die Rechenregeln für die durch das Symbol „lim“ be- 

n-> co 

zeichnete Operation benötigt.) Die Propensity-Interpretation vermag (vor- 
läufig) kein analoges Rechtfertigungs- oder Begründungsverfahren zu liefern. 

Wir haben soeben ausdrücklich nur von einer Verdeutlichung der Heraus- 
forderung durch Suppes gesprochen. Denn Suppes selbst hat seine Frage 
auf andere und zwar auf präzisere Weise formuliert. Um diese Formulierung 
verstehen zu können, muß man mit den Grundzügen der axiomatischen 
Theorie der Metrisierung vertraut sein. 

Da es nicht möglich war, diese Theorie in den gegenwärtigen Text einzuarbei- 
ten, sei der Leser auf den Anhang III dieses Buches verwiesen : das Metrisierungsproblem 
wird dort eingehend geschildert; ferner wird die Lösung für den in den Natur- 
wissenschaften wichtigsten Fall extensiver Größen angegeben; schließlich wird die 
Problemstellung und -lösung für insgesamt fünf probabilistische Fälle im Anschluß 
an das Werk von Krantz et al. [Foundations] formuliert, welches das beste mo- 
derne Standardwerk zu Fragen der Metrisierung darstellt. 

Wer beansprucht, einen empirischen Größenbegriff in korrekter Weise 
eingeführt zu haben, der muß in der Lage sein, für seinen Größenbegriff das 
Repräsentationstheorem %u beweisen. Die Einführung eines Größenbegriffs oder 
eines quantitativen Begriffs für einen empirischen Bereich besteht nämlich 
darin, daß der fragliche Bereich in einen numerischen Bereich struktur- 
gleich, d. h. homomorph abgebildet wird. Die Lösung des Repräsentations- 
problems besteht daher, grob gesprochen, darin, in einem ersten Schritt die 
, formalen" Merkmale der im Metrisierungsverfahren benützten empirischen 
Relationen und empirischen Operationen axiomatisch zu charakterisieren 
und in einem zweiten Schritt zu zeigen, daß diese Relationen und Opera- 
tionen , dieselbe Struktur" haben wie geeignet gewählte numerische Rela- 
tionen und numerische Operationen. (Wie in Anhang III gezeigt wird, hängt 
es in der Regel von der Wahl der empirischen Objekte, nämlich: konkrete 
Einzeldinge oder Äquivalenzklassen, ab, ob eine Strukturgleichheit im 
Sinn der Isomorphie oder bloß im Sinn der Homomorphie vorliegt.) 

104 Um Komplikationen zu vermeiden, die den entscheidenden Punkt nicht 
berühren, beschränken sich die folgenden Überlegungen auf die Fälle endlich ad- 
ditiver Wahrscheinlichkeitsmaße. 
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Auf den Wahrscheinlichkeitsfall übertragen, heißt dies: Von denjenigen 
Entitäten, die im Rahmen einer bestimmten Interpretation der Wahrschein- 
lichkeit eingeführt werden, muß gezeigt werden, daß sie die strukturellen 
Merkmale einer Wahrscheinlichkeit besitzen, abstrakter gesprochen : es muß 
gezeigt werden, daß sie das mengentheoretische Prädikat „ist ein endlich 
additiver Wahrscheinlichkeitsraum“ erfüllen. Für die beiden im vorletzten 
Absatz erwähnten Interpretationen ist dieser Beweis möglich. Suppes be- 
tont demgegenüber, daß er nicht sehe, wie ein entsprechendes Repräsentations- 
theorem für die Poppersche Propensity-Interpretation bewiesen werden könne . So- 
lange dies aber nicht möglich sei, müsse man sagen, daß sich die Propensity - 
Deutung noch auf einer präsystematischen Stufe befindet. 

Sehr interessant ist in diesem Zusammenhang auch die Diskussion von Pop- 
pers Kritik an der klassischen Wahrscheinlichkeitskonzeption (vgl. [Propensity 2], 
S. 35 f.), die Suppes in [Popper’s Analysis] auf S. 7 ff. gibt. Popper bemängelte in 
seiner Kritik, daß in der klassischen Wahrscheinlichkeitsdefinition („Wahrschein- 
lichkeit ist gleich der Anzahl der günstigsten Fälle, dividiert durch die Anzahl der 
möglichen Fälle“) von bloßen Möglichkeiten die Rede sei, daß jedoch bloße Möglich- 
keiten niemals zu Voraussagen führen könnten; denn eine bloße Möglichkeit hat 
als solche keine Tendenz, sich zu realisieren. Tatsächlich verhält es sich jedoch, wie 
Suppes mit Recht hervorhebt, so, daß auch diese klassische Interpretation adäquater ist 
als die Propensity- Deutung, da sich für sie das entsprechende Repräsentationstheorem 
beweisen läßt. In der Sprechweise von Suppes besteht dieser Beweis darin, daß 
man zeigen kann: feder endliche Laplacesche Wahrscheinlichkeitsraum ist ein endlich 
additiver Wahrscheinlichkeitsraum. Der entscheidende Punkt in dieser klassischen 
Definition besteht eben darin, daß die Berechnung von Wahrscheinlichkeiten auf die 
Aufzählung von Möglichkeiten zurückgeführt wird. Was diese Theorie heute als un- 
befriedigend erscheinen läßt, ist etwas ganz anderes, nämlich ihr geringer An- 
wendungsbereich : Nur in den seltensten Fällen (im praktischen Leben meist nur 
bei gewissen Glücksspielen) stoßen wir auf Symmetriebedingungen, welche die 
Reduktion aller Wahrscheinlichkeiten auf gleichwahrscheinliche Möglichkeiten 
zulassen. 

Die Analogie, die Popper zwischen Propensities und den Newtonschen 
Kräften zieht, ist deshalb nicht überzeugend, weil für die Newtonschen 
Kräfte explizite formale Gesetze angegeben werden, für die Propensities hin- 
gegen nicht. 

Man könnte zur Stützung dieser Kritik von Suppes den Text bei Popper in 
[Propensity 2], S. 31, Zeile 2—8, heranziehen. Popper sagt hier selbst ausdrück- 
lich, daß mit dem Begriff der Kraft eine physikalische Disposition eingeführt 
werde, die nicht durch Metaphern , sondern durch bestimmte Gleichungen beschrieben wird. 
Und er fährt fort, daß mit dem Begriff der Propensity in analoger Weise eine dis- 
positionelle Eigenschaft einzelner physikalischer experimenteller Anordnungen 
eingeführt werde, um beobachtbare Häufigkeiten zu erklären. Das „in analoger 
Weise“ (im englischen Text: “Similarly”) ist jedoch unfundiert; denn es fehlt die 
Angabe von dem, was den eben erwähnten Gleichungen, zum Unterschied von 
Metaphern, in diesem physikalischen Illustrationsbeispiel entspricht. 

An späterer Stelle (in [Propensity 2], S. 38) formuliert Popper allerdings 
die Hypothese: „daß jede experimentelle Anordnung ...physikalische 
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Propensities erzeugt, welche mittels Häufigkeiten geprüft werden kön- 
nen“ 105 . Doch wird man auch hier Suppes beipflichten müssen, daß die 
Vagheit dieser physikalischen Hypothese in scharfem Gegensatz steht zu 
der präzisen Formulierung der Newtonschen Theorie. 

Zur Erläuterung dieser Kritik von Suppes könnte man den Spieß umdrehen 
und die Newtonsche Theorie ähnlich ungenau zu formulieren versuchen. Ange- 
nommen, Newton hätte nichts weiter gesagt als: ,,Alle Beschleunigungen von 
Körpern werden durch Kräfte hervorgerufen.“ Dies wäre sicherlich eine interes- 
sante Äußerung gewesen, interessant nämlich in dem Sinn, daß sie die weitere 
physikalische Forschung vielleicht angeregt hätte. Es ist jedoch kaum anzunehmen, daß 
diese Äußerung als solche, selbst wenn sie von Beispielsanalysen und Kommenta- 
ren begleitet gewesen wäre, von Physikern als eine aufregende naturwissenschaft- 
liche Theorie betrachtet worden wäre. 

Trotz dieser Kritik findet Suppes die Ideen Poppers äußerst attraktiv. 
Sein Bemühen geht dahin, wenigstens für einen speziellen Typ von Fällen 
diejenige Präzisierung zu liefern, die den Beweis eines Repräsentations- 
theorems für Propensities gestattet. Es handelt sich um die klassische Theorie 
des radioaktiven Zerfalls . Halbwertszeiten von radioaktiven Elementen bilden 
ja besonders eindrucksvolle Beispiele von Wahrscheinlichkeiten, die wir, 
wenn wir nicht in eine phantastische subjektivistische Metaphysik flüchten 
wollen, nicht umhinkönnen, als objektive Naturtatsachen zu deuten. 

Den Ausgangspunkt der Theorie bildet eine qualitative Relation, die 
man alltagssprachlich etwa so wiedergeben könnte : „Das Ereignis B hat bei 
gegebenem Ereignis A eine mindestens ebenso große Propensity vorzu- 
kommen wie das Ereignis D bei gegebenem Ereignis C“. Als symbolische 
Abkürzung dafür diene : „B | A > D | C“. Die für die Repräsentation not- 
wendigen Axiome (d. h. diejenigen, ohne die man nachweislich kein Repräsen- 
tationstheorem beweisen kann) sind im Begriff des qualitativen bedingten 
Wahrscheinlichkeitsfeldes enthalten. 

Die Behauptung, daß diese Axiome notwendig sind, läßt sich zu der fol- 
genden Aussage präzisieren: Diese Axiome sind eine logische Folgerung 
der Annahme, daß auf dem zugrunde liegenden Ereigniskörper ein Wahr- 
scheinlichkeitsmaß P definiert ist, welches die Bedingung erfüllt: B | A > 
D | C gdw P(B | A) ^ P{D | C ). 

Die notwendigen Axiome sind in D4 von Anhang III formuliert. Der auch an 
den technischen Details interessierte Leser sei daher auf die dortige Dar- 
stellung verwiesen. (Suppes gibt in [New Foundations] allerdings eine ge- 
ringfügige Modifikation des Axiomensystems, das im Werk von Krantz et 
al., [Foundations], angegeben wird und welches wir im Anhang III über- 
nommen haben. Er leitet außerdem in diesem Aufsatz eine Reihe weiterer 
Theoreme ab. Neuartig ist vor allem ein Theorem über Standardfolgen, 
welches Suppes a. a. O. auf S. 13 ff. formuliert und beweist.) 

105 “ . . . that every experimental arrangement . . . generates physical propen- 
sities which can be tested by frequencies”. 
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Zu den notwendigen Axiomen treten — wie auch in anderen Fällen der 
Metrisierung — die nicht notwendigen strukturellen Axiome hinzu, die zu- 
sätzlich benötigt werden, um eine hinreichende Basis für den Beweis des 
Repräsentationstheorems zu erhalten. Mit diesen strukturellen Axiomen wird 
keine absolute Eindeutigkeit angestrebt, d. h. diese Axiome sollen zusam- 
men mit den notwendigen Axiomen das Wahrscheinlichkeitsmaß nicht voll- 
kommen festlegen. Suppes bemerkt, daß diese seine Theorie der objektiven 
Wahrscheinlichkeit sich von den subjektivistischen Theorien wesentlich 
unterscheide, da in Theorien der letzteren Art die Strukturaxiome das 
Wahrscheinlichkeitsmaß eindeutig festlegen. 

Diese Feststellung von Suppes gilt jedoch nur für diejenigen subjektivisti- 
schen Theorien, die er im Auge hat. Es gilt insbesondere nicht von der in Teil I, 
Abschnitt 7 behandelten Theorie von Jeffrey. Denn in dieser Theorie sind die 
subjektiven Nützlichkeiten und subjektiven Wahrscheinlichkeiten nur bis auf gewisse 
Transformationen festgelegt, nämlich in bezug auf jene, die im Eindeutigkeitstheo- 
rem von Bolker-Gödel (Teil I, Abschnitt 7.e) angegeben sind. 

Jedenfalls erblickt Suppes in der Nichteindeutigkeit keinen Mangel der 
Theorie, sondern eine Stärke. Es wird durch diese Theorie nur die para- 
metrische Form des Wahrscheinlichkeitsmaßes eindeutig festgelegt, nicht 
jedoch das Maß selbst. Tatsächlich muß die Nichteindeutigkeit des Wahr- 
scheinlichkeitsmaßes als ein beinahe selbstverständliches Desiderat er- 
scheinen, wenn man bedenkt, daß man für eine bestimmte physikalische Sub- 
stanz ohne genaue Experimente, also durch reine Apriori-Betrachtungen, 
nicht den Parameter der vorliegenden Verteilung bestimmen kann, sondern 
nur die Verteilungsform (,Zerfallskurve‘). Mehr als die Eindeutigkeit 
bis auf bestimmte empirisch %u ermittelnde Parameter kann man von einer objek- 
tiven Theorie der statistischen Wahrscheinlichkeit nicht verlangen. 

Aus Einfachheitsgründen wählt Suppes für die strukturellen Axiome 
des radioaktiven Zerfalls eine diskrete Zeiteinteilung in gleiche Zeitinter- 
valle. (Dies ist der Grund dafür, daß dann eine geometrische Verteilung 
und nicht eine Form von stetiger Verteilung herauskommt.) Wahrschein- 
lichkeitstheoretisch gesehen bedeutet dies, daß der »- te Versuch mit dem 
n- ten Zeitintervall identifiziert wird. Als Stichprobenraum Q wird die Klasse 
aller derjenigen unendlichen Folgen von Nullen und Einsen gewählt, die 
genau eine 1 als Glied enthalten und deren übrige Glieder alle gleich 0 sind. 
Die in einer Folge als n- tes Glied vorkommende 1 repräsentiert den Zerfall 
einer Partikel beim »-ten Versuch (während des »-ten Zeitintervalls). 

Suppes reduziert die Strukturaxiome auf ein einziges Axiom, welches be- 
sagt: Die Zerfallswahrscheinlichkeit beim »-ten Versuch, gegeben das 
Ereignis, daß Zerfall bisher nicht vorkam, ist gleichwahrscheinlich mit 106 der 
Zerfallswahrscheinlichkeit beim ersten Versuch. Es wird durch dieses 

106 Genauer müßte es heißen: „probabilistisch äquivalent mit“, da nur eine 
qualitative, aber noch keine quantitative Wahrscheinlichkeit verfügbar ist. 
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Axiom also in qualitativer Formulierung der Gedanke ausgedrückt, daß die 
Propensity , während des Zeitablaufes %u verfallen , konstant ist . 

Wenn E n das Ereignis ist, daß der Zerfall beim n - ten Versuch stattfin- 
__ 

det, so istj2 n = U Ei das Ereignis, daß in den ersten n Versuchen kein Zer- 

i = l 

fall vorkam. 

Für die genaue Formulierung des Axioms wird der Begriff der Zylindermenge 
benötigt. Wenn Q eine Gesamtheit von unendlichen Folgen ca = (co l9 . . . , ca Ä , . . .) 
ist, so sei U n diejenige auf Q definierte Funktion, die für jedes ca £ ü liefert: 
77» (ca) = (a>i, . . ., ca Ä ), d. h. die Q auf den «-dimensionalen Unterraum der 
ersten n Koordinaten jedes Elementes ca projiziert. Die «-dimensionale Zylinder- 
menge mit der Basis A ist die Klasse {ca | ca £ Q a 77 n (ca) £ A). Die Zylindermen- 
gen bilden selbst einen Mengenkörper. Es ist in vielen Anwendungen, so auch in 
der vorliegenden, wichtig, Mengenkörper zu bilden, welche den Körper der 
Zylindermengen enthalten 107 . 

Das eine zusätzliche Axiom, auch Zerfallsaxiom oder Warte^eitaxiom ge- 
nannt, kann dann in die Definition eines mengentheoretischen Prädikates 
einbezogen werden (im Sinn des Vorgehens der modernen Axiomatik, das 
in Anhang III geschildert wird. Der dort in 2.c mittels der Definition D4 ein- 
geführte Begriff des qualitativen bedingten Wahrscheinlichkeitsfeldes wird 
dabei vorausgesetzt): 

Definition. Es sei ß die Menge aller Folgen von 0-en und 1-en, deren 
jede eine 1 enthält. 21 sei der kleinste cr-Körper über ß, der den 
Körper der Zylindermengen enthält. X = (ß, 2t, 91, £;> ist ein 
qualitatives Warteyeitfeld mit Unabhängigkeit von der Vergangenheit 
gdw X ein qualitatives bedingtes Wahrscheinlichkeitsfeld ist und 
wenn außerdem für jedes n das folgende Axiom unter der Vor- 
aussetzungen-!. > 0 erfüllt ist: 

E n Lßn-i ~ E i {Zerfallsaxiom). 

Die Hinzufügung dieses einen Axioms zu den notwendigen Axiomen 
genügt bereits für den Beweis des folgenden Theorems : 

Repräsentations- und Eindeutigkeitstheorem. X = (ß, 2t, 91, ^,) 
sei ein qualitatives W arte^eitfeld mit Unabhängigkeit von der Vergangen- 
heit. Dann existiert ein Wahrscheinlichkeitsmaß auf 2t (also ein auf 21 
definiertes Maß, das die Kolmogoroff-Axiome erfüllt), welches 
außerdem das Zerfallsaxiom erfüllt , so daß gilt: 

(a) />(£„ 

außerdem existiert eine Zahl p mit 0 < p ^ 1, so daß die folgende Glei- 
chung gilt: 

(*) P(En) ^pa-py- 1 - 

107 Für technische Details vgl. z. B. Renyi, Wahrscheinlichkeitsrechnung, 
S. 242 ff. 
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Ferner gilt: Jedes die Bedingung (a) erfüllende Wahrscheinlichkeitsmaß 
ist von der Gestalt (b). 

Die Bedingung (b) zusammen mit der im letzten Satz des Theorems ent- 
haltenen Eindeutigkeitsaussage präzisiert die frühere Feststellung, daß 
durch die strukturellen Axiome nur die parametrische Form (rechte Seite 
von (b)\) festgelegt wird, nicht jedoch die Parameterwerte selbst fixiert 
sind, da diese nur durch empirische Untersuchungen ermittelt werden kön- 
nen. 

Suppes führt noch zwei weitere Axiome zur Präzisierung zweier wichtiger 
Aspekte des in empirischen Wissenschaften angewandten Begriffs der Wahrschein- 
lichkeit an. Das erste betrifft die unabhängige Wiederholung von Zufallsexperimenten. 
Für seine Formulierung benötigt man das qualitative Analogon zu dem Begriff 
des Produktes von Maßräumen 108 , welches in vollkommen gleicher Weise einzu- 
führen ist wie der letztere Begriff. Wenn X = (Q, 21, 9t, > ) ein qualitatives be- 
dingtes Wahrscheinlichkeitsfeld ist, so sei X n — (Ü n , 2l n , 21", > n ) das «-fache 
Produktfeld. Das Ereignis E t in der y'-ten Wiederholung werde E{ } genannt. 
(Dabei kann für j 4= k Ey ein von E ik verschiedenes Ereignis von Qi bzw. von Ql 
sein.) 

Axiom der unabhängigen Wiederholungen. Wenn JJ Ei k > 0 , dann 

Je ^rj 

Fij I TI Fi k ~ Ei. . 

k*j 

Aus diesem Axiom folgt, daß für ein auf dem Mengenkörper des Produkt- 
raumes gegebenes Wahrscheinlichkeitsmaß gilt: 

P(Eh r\ . . . n EO = p(ßü . . . P{E in ). 

Das zweite Axiom betrifft den philosophisch wichtigeren Begriff der Zufällig- 
keit. Für die Formulierung eines qualitativen Zufallsaxioms knüpft Suppes an den 
Begriff der Vertauschbarkeit von de Finetti an 109 , n bezeichne eine Permutation 
der ersten n Zahlen, so daß also n (/) diejenige Zahl ist, in welche die Zahl i bei 
dieser Permutation übergeht. 

Zufallsaxiom. Für alle Ereignisse Ei } und alle Permutationen n gilt: 

E% x r\ . .. r\ E% n ~ Ei n{1) r\ ... r\ Fi n(n) . 

Alle bisherigen Betrachtungen bezogen sich ausschließlich auf den 
klassischen Fall. Weiter oben sagten wir, daß man gewöhnlich an die 
Kolmogoroff- Axiome denkt, wenn man eine Größe eine Wahrscheinlichkeit 
nennt. Woher aber wissen wir denn überhaupt, daß die in einer empirischen 
Wissenschaft vorkommenden Wahrscheinlichkeiten diese Axiome immer 
erfüllen ? Nach Suppes darf man nicht nur nicht von vornherein annehmen, 
daß sie stets gelten. Vielmehr kann man bezüglich des quantenmechanischen 
Falles sogar positiv sagen, daß sie nicht gelten. Die qualitativen Strukturen, 
die zur Repräsentation durch ein , quantenmechanisches Wahrscheinlich- 
keitsmaß c führen, sind im Anhang III, 2.b angeführt (vgl. dazu auch den 
Anhang von Bd. II, Theorie und Erfahrung). 

108 Vgl. Teil 0, Abschnitt 11 und 12. d. 

109 Für eine inhaltliche Erläuterung zu diesem Begriff vgl. Anhang II, l.c 
und 2.a. 
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Neben den früheren Arbeiten von Suppes finden sich vor allem im 
zweiten Teil seines Aufsatzes [Popper’s Analysis] interessante Bemerkungen 
zu diesem Thema. Die Überraschung, welche die Quantenphysik den 
meisten Physikern und Philosophen, einschließlich Popper, bereitete und 
immer noch zu bereiten scheint, dürfte hauptsächlich auf dem ^deter- 
ministischen Schock c beruhen, wie ich dies nennen würde. Hat man diesen 
Schock einmal überwunden, so kommt es erst zu derjenigen Überraschung, 
die einen wesentlich tieferen Aspekt der Quantenphysik betrifft . Dazu muß man 
die Quantenmechanik als eine genuine statistische Theorie betrachten . Was 
Suppes hier — meines Erachtens ganz zu Recht — höchst merkwürdig fin- 
det, ist die Tatsache, daß sich ganz natürlich aufdrängende Probleme, die 
diese Theorie qua statistische Theorie betreffen, überhaupt nicht aufgeworfen 
und diskutiert werden 110 . 

Nehmen wir als Beispiel die Unschärferelation. Es wurde und wird darüber 
nachgegrübelt, ob diese Aussage mit dem Determinismus verträglich sei oder nicht. 
Diese Verträglichkeit besteht zweifellos. 

Wir benützen die übliche Definition der Korrelation , die gleich ist der Kova- 
rianz, dividiert durch das Produkt der Standardabweichungen zweier Zufalls- 
funktionen. Ihr Wert 1 drückt eine deterministische Beziehung zwischen den bei- 
den Größen aus. Es handelt sich um die folgende Aussage: 

„Die Unschärferelation ist mit dem Determinismus verträglich“. 

Beweis: „Nimm an, die Korrelation zwischen Ort und Impuls eines Teilchens 
in einer bestimmten Richtung zu einer bestimmten Zeit sei gleich 1.“ Ende des 
Beweises. 

Daß diese Verträglichkeitsbehauptung besteht, ist eine elementare statistische 
Tatsache, die allein das Verhältnis der Korrelation zu dem Produkt von Standard- 
abweichungen betrifft. Natürlich wird mit der eben zitierten Aussage nicht die 
Verträglichkeit mit der ganzen Theorie behauptet! 

Diese Probleme ergeben sich daraus, daß die Quantenmechanik, ob- 
wohl eine genuine statistische Theorie, keine statistische Theorie von Standard- 
form ist. Diese Feststellung stützt sich auf die rein rechnerisch nachprüfbare 
Tatsache, daß die gemeinsame Verteilung’ von Zufallsfunktionen, deren 
jede eine Verteilung besitzt, für gewisse Argumente negative Werte liefert, 
so daß die fragliche Funktion eben nicht als gemeinsame Verteilung deutbar ist. 
Suppes bemerkt dazu: “I do think that the difficulties raised by the non- 
existence of joint distributions within the framework of the Standard formal- 
ism are the most direct challenge to a straightforward interpretation of 
quantum mechanics as a Standard Statistical theory.” 

Die in Abschnitt 2.b von Anhang III skizzierte Theorie quantenmecha- 
nischer Wahrscheinlichkeitsfelder kann als ein wichtiger, wenn auch nur 
als ein erster Schritt in Richtung auf eine Präzisierung des Begriffs der sta- 

110 Suppes sagt z. B. a. a. O. auf S. 18: “What Heisenberg, for instance, has 
had to say about these matters would make the hair of any right-thinking statisti- 
cian stand on end.” 
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tistischen Wahrscheinlichkeit als derjenigen theoretischen Größe angesehen 
werden, die man als quantenmechanische Propensity zu bezeichnen hätte. 

Zusammenfassend möchte ich sagen, daß die Gedanken von Suppes 
den bisher wohl wichtigsten Beitrag zur Klärung und Präzisierung des 
Begriffs bzw. der Begriffe der statistischen Wahrscheinlichkeit als theoreti- 
scher Propensities darstellt. Diese hier geschilderten Überlegungen bilden 
auch eine wichtige Ergänzung zu der in diesem Band eingeschlagenen Metho- 
de der Behandlung statistischer Wahrscheinlichkeiten. Wir sind davon aus- 
gegangen, daß eine größere Klarheit über den Begriff der statistischen Wahr- 
scheinlichkeit dadurch zu gewinnen ist, daß man sich ansieht, ,wie man mit 
diesem Begriff umgeht*. Eine noch so genaue Schilderung und Rekonstruk- 
tion des in Stützungs-, Test- und Schätzungstheorien erfolgenden ,Um- 
gehens mit statistischen Wahrscheinlichkeiten* macht jedoch eine Theorie 
der Propensity nicht überflüssig. Vielmehr muß eine solche Theorie aus den 
angegebenen Gründen unbedingt hinzutreten. 

Der Beitrag von Suppes ist — dies sei nur nebenher erwähnt — um so 
bemerkenswerter, als Suppes früher selbst überzeugter Bayesianer und An- 
hänger der subjektivistischen Schule war. Gleichzeitig spricht es für den 
wissenschaftlichen Instinkt Poppers, daß es ihm gelang, jemanden ,aus dem 
anderen Lager herüberzuholen* und ihn von der Richtigkeit seiner Grund- 
ideen zu überzeugen. 

13. Versuch einer Skizze der logischen Struktur 
des Fiduzial- Argumentes von R. A. Fisher 

Wie bereits in der Einleitung hervorgehoben worden ist, soll hier kommentar- 
los versucht werden, die logische Struktur des Fiduzial- Argumentes von R. A. 
Fisher im Anschluß an die Darstellung Hac kings für den diskreten Fall zu be- 
schreiben, um damit eine mögliche Ausgangsbasis für künftige wissenschafts- 
theoretische Diskussionen zu schaffen. 

Der Begriff der Stützung ist bisher nur als komparativer Begriff be- 
nützt worden. Mittels dieses Begriffs kann man Behauptungen formulieren, 
wonach eine Hypothese besser gestützt ist als eine andere. Fisher hat zu 
zeigen versucht, daß unter gewissen Bedingungen ein numerischer Wahr- 
scheinlichkeitsgrad, in dem eine Hypothese durch gegebene Daten ge- 
stützt wird, angegeben werden kann. Dies scheint im Endeffekt auf das- 
selbe hinauszulaufen wie Carnaps ursprüngliche quantitative Bestäti- 
gungstheorie. Doch bestehen die folgenden wesentlichen Unterschiede : 

(1) In Carnaps Theorie wird durch die Grundaxiome der Wahrschein- 
lichkeitstheorie keine bestimmte metrische Bestätigungsfunktion ausge- 
zeichnet. Um zu einer Aussage über den Bestätigungsgrad zu kommen, muß 
eine zusätzliche Auswahl aus dem Kontinuum der induktiven Methoden 
vorgenommen werden. In Fishers Theorie ist keine analoge Wahl erforderlich . 
Auch dort werden vom Begriff der Stützung zunächst nur die Kolmogoroff- 
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Axiome vorausgesetzt. Quantitative Stützungsaussagen werden allein durch 
die Hin^ufügung zweier weiterer Axiome gewonnen. 

(2) Carnaps Methode ist bisher auf Systeme von relativ primitiver Struk- 
tur beschränkt geblieben. Fishers Theorie weist keine analoge Beschränkung 
auf. Das Verfahren ist prinzipiell auf statistische Hypothesen von beliebiger 
Struktur anwendbar. 

(3) Während dagegen Carnaps Methode universell ist, kann Fishers 
Verfahren nur bei Vorliegen gan% bestimmter Bedingungen angewendet werden. 

Wir gehen im folgenden heuristisch vor, da der intuitive Zugang zum 
Fiduzial-Argument etwas kompliziert ist. Außerdem sei bemerkt, daß dieser 
Abschnitt mehr als alle vorangehenden provisorischen Charakter hat. 

Zunächst wird die Funktion s(h | e) eingeführt, die zu lesen ist als: 
„der Grad, in dem die Hypothese h durch das Datum e gestützt wird“. Um 
eine Verwechslung mit der Carnapschen Bestätigungsfunktion zu vermei- 
den, wurde für die Funktion das Symbol „j“ gewählt. Sowohl für wie 
für „ e “ werden kombinierte Propositionen eingesetzt, d. h. jeweils geordnete 
Paare von Tripeln im früher angegebenen Sinn. 

Die Funktion s hat die formale Struktur einer Wahrscheinlichkeit. Voll- 
ständigkeitshalber schreiben wir die für s geltenden Grundaxiome explizit 
an: 

Aj 0£s(b\e)£l; 

A 2 Wenn e \\- h, dann s(h | e) = 1 ; 

A 3 Wenn e a b x a h 2 L-falsch ist, dann 

sfa v h 2 | e) = s{h x | e) -f- s(b 2 | e) (spezielles Additionsprinzip); 

A 4 s(h x a h 2 | e) = s (h x | e a ä 2 ) • s(h 2 | e) (allgemeines Multiplikations- 
prinzip). 

(Wenn man die Propositionen e und h linguistisch deutet, so müssen wieder- 
um zwei Axiome hinzugefügt werden, welche die Invarianz in bezug auf 
logische Äquivalenz verlangen.) 

Eine Verallgemeinerung von A 4 für den abzählbaren Fall bildet 

A* Wenn {^} (für n = 1,2,...) eine abzählbare Klasse von Hypo- 
thesen bildet, die relativ zu e wechselseitig logisch unverträglich 
sind, und h die abzählbare Adjunktion der h n bildet, dann s(h | e) 

oo 

= Zs{h n \e). 

1 

Angenommen, wir wissen bereits, daß die Chance von Ereignissen der 
Art E bei Versuchen des Typs T gleich p ist. Dann erscheint es als ver- 
nünftig zu behaupten, dieses Wissen stütze im Grad p die Proposition, daß 
E bei einem speziellen Versuch des Typs T Vorkommen wird. (Für die 
Rechtfertigung dieser Behauptung könnte man zusätzlich ebenso vorgehen 
wie die Personalsten und Carnap : Man deute das Stützungsmaß als fairen 
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Wettquotienten und zeige, daß dieser mit der bekannten statistischen Wahr- 
scheinlichkeit zusammenfällt, sofern vernünftige Wetten abgeschlossen 
werden.) 

Wir müssen diesen Gedanken in unseren Symbolismus übersetzen. Das 
statistische Datum d beschreibe gerade das, was wir eben geschildert haben 
bzw. genauer eine doppelte Verallgemeinerung davon: (a) d besage, daß 
die Verteilung bei Versuchen vom Typ T an der Anordnung X gleich D 
sei; (b) da wir d als kombinierte Proposition anschreiben müssen, fügen wir 
{AT, Vt> ß) als zweites Glied hinzu. Dieses empirische Datum enthält nur 
eine leere Information. Die kombinierte statistische Hypothese besagt im 
ersten Glied genau dasselbe wie d; das singuläre Glied betrifft die Feststel- 
lung, daß der Versuch Vj an AT in E resultiert. Die Chance von E unter der 
Voraussetzung, daß D die wahre Verteilung ist, heiße W D (E). Es soll nun 
gelten : 

A 5 Falls W d (E) 4= 0, so gilt: 

s( «. X : , T, Dy, {. X , V T , E)) I «A-, T, D); <Af, V T , fl» ) 

= r D (£). 

Wir haben hier auf der linken Seite s(h \e) explizit formuliert. Fisher 
nennt dieses Axiom Häufigkeitsprinzip, und Hacking übernimmt diese 
Terminologie. Sie erscheint nicht als angemessen. Wir nennen A 5 vielmehr 
das Likelihood-Stüt^ungsaxiom . Das Motiv für diese Bezeichnung dürfte ein- 
leuchten: Das Axiom setzt ja den Grad, in dem h durch d gestützt wird, mit 
der Likelihood von h gleich (W D {E) ist ja nichts anderes als die Likelihood 
von b !). 

Von A 5 wird eine doppelte Verallgemeinerung benötigt, die hier an- 
gedeutet sei: Es genügt, wenn in der statistischen Hypothese behauptet 
wird, daß die Verteilung einer Klasse A angehört. Es darf also in h wie in 
d das Symbol „D“ durch „A“ ersetzt werden. Ferner braucht der Versuch 
V selbst nicht vom Typ T zu sein. Es genügt, daß es sich um einen Versuch 
eines Typs T* handelt, der vom Versuchstyp T abgeleitet ist. Wir können 
also „TV CC durch „PV“ ersetzen. Die Art der Ableitung muß natürlich 
genau beschrieben werden (vgl. dazu das folgende zweite Beispiel). 

Bevor das wichtige letzte Axiom (Irrelevanzaxiom) formuliert wird, 
soll der Sachverhalt an zwei Beispielen illustriert werden. Das erste Bei- 
spiel ist trivial, das zweite nicht. 

1. Beispiel : Wir beginnen mit einer Beschreibung des als bekannt 
vorausgesetzten Ausgangsdatums d . Dieses enthalte die folgenden Infor- 
mationen : 

(a) Gegeben sei eine Schachtel S, die genau eine farbige Kugel enthält; 
die Farbe ist unbekannt (die Schachtel kann nicht oder darf nicht geöffnet 
werden) ; 
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(ß) gegeben sei ferner eine Urne U, die 100 Kugeln enthält; 95 dieser 
Kugeln haben dieselbe (unbekannte) Farbe wie die Kugel in S ; 

(y) die Chance, aus U eine Kugel von einer bestimmten Farbe zu ziehen, 
ist gleich der relativen Häufigkeit der Kugeln von dieser Farbe in U. 

Zu beachten ist: Aus d folgt logisch, daß die statistische Wahrschein- 
lichkeit, aus U eine Kugel zu ziehen, welche dieselbe Farbe hat wie die 
Kugel in der Schachtel, gleich 0,95 beträgt. 

Es wird nun die Aufgabe gestellt, eine Kugel aus U zu ziehen und die 
Farbe der Kugel in der Schachtel S zu erraten. Angenommen, man ziehe 
eine weiße Kugel. Nach Fisher liegt es jetzt nicht nur nahe, zu raten, daß 
die Kugel in S ebenfalls weiß ist. Vielmehr ist nach seiner Auffassung die 
Zahl 0,95 ein gutes Maß dafür, wie stark die Hypothese : „die Kugel in S ist weiß“ 
durch das um den neuen Beobachtungsbefund erweiterte Datum d gestützt wird . Wie 
läßt sich diese Auffassung rechtfertigen ? 

Außer d benötigten wir noch drei weitere Aussagen e , h ± und h 2 . h x sei 
die Hypothese : „die aus U gezogene Kugel hat dieselbe Farbe wie die Kugel 
in S“. e beinhalte die Zusatzinformation, daß aus U eine weiße Kugel ge- 
zogen worden ist. h 2 sei die Hypothese : „die Kugel in der Schachtel ist weiß“. 
Wir formulieren das Argument nur unter Benützung dieser intuitiven An- 
gaben und verzichten auf eine Übersetzung in die präzise Sprechweise der 
kombinierten Propositionen. Es gilt zunächst: 

(1) j(ä 1 |^)=0,95 (nach A 5 ). 

Hinweis für die formale Präzisierung: Was wir explizit als h x anschreiben, 
bildet nur das zweite Glied der kombinierten Proposition. Das erste Glied be- 
inhaltet die Verteilungshypothese: „die Wahrscheinlichkeit dafür, daß aus der 
Urne eine Kugel von derselben Farbe gezogen wird wie die Schachtelkugel, ist 
0,95“. Eben diese Verteilungshypothese bildet das erste Glied der formalen Präzi- 
sierung von d. (Oben war dies als logische Folgerung unseres ,intuitiven‘ Datums 
ausgezeichnet worden; dieses intuitive Datum verschwindet in der Formali- 
sierung vollkommen und geht nur in die Vorgeschichte für die Annahme von d ein). 
Das zweite Glied von d gibt die leere Information, daß entweder eine farbgleiche 
oder keine farbgleiche Kugel gezogen wird. 

Bereits in diesem ersten Schritt wird also das Likelihood- Stützungs- 
axiom benützt. Angenommen nun, man könnte behaupten , daß e irrelevant 
sei für die Stützung von h 1 durch d. Dann wäre der Übergang von (1) zur 
folgenden Aussage zulässig : 

(2) s(b ± \ d Ae) = 0,95. 

Hier klafft noch eine Lücke. Wenn man sich die Bedeutungen der drei Aus- 
sagen vor Augen hält, so erscheint der Übergang aber als sehr plausibel. 
Diese Plausibilitätsbetrachtung muß durch eine präzise Bestimmung ersetzt 
werden. Eine solche Bestimmung soll das noch ausstehende Irrelevanz- 
prinzip liefern. 
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Nun bedenke man, daß relativ auf d a e (ja schon auf e) h 1 logisch äqui- 
valent ist mit h 2 (nämlich: aus e und h 1 folgt logisch h 2 ; andererseits folgt aus 
e und h 2 logisch h x ). Die quantitative Stützungslogik gestattet somit den 
Übergang zu : 

(3) s(h 2 \d Ae) = 0,95. 

Unter der Voraussetzung, daß die Lücke ausgefüllt werden kann, ist 
damit die Rechtfertigung gegeben. 

2 . Beispiel: Die Nichttrivialität dieses Beispiels besteht darin, daß zum 
Unterschied vom ersten Fall die genaue statistische Wahrscheinlichkeit nicht 
bekannt ist. Die Anordnung X bestehe in einem Verfahren zum Werfen 
einer Münze (mit der Hand, mit einer Maschine u. dgl.). Der Versuchstyp 
T sei der Wurf einer Münze mit diesem Verfahren. Das Ausgangsdatum d 
besage diesmal nur: W(K ) = 0,6 v W(K) = 0,4 (die Wahrscheinlichkeit 
eines Kopfwurfes beträgt 0,6 oder 0,4). e besage, daß ein Versuch V p das 
Ergebnis S liefere. Aufgabe: Was ist der Wert von s(W(K) = 0,4 | d a *)? 

Die Aufgabe scheint zunächst unlösbar zu sein, da man die wahre Ver- 
teilung nicht kennt. Hier setzt nun der entscheidende gedankliche Trick von 
Fisher ein: Er zeigt, wie man aus dem primären Versuchstyp T einen abge- 
leiteten Versuchs typ T* definieren kann,/£r den die Chancenverteilung bekannt ist . 
Die abgeleiteten Versuche werden Kernversuche (pivotal trials) genannt. 

Im vorliegenden Fall hat ein Versuch vom Typ T* zwei mögliche 
Resultate, nämlich 0 und 1. T* ist dadurch festgelegt, daß man definiert, 
wann 0 vorkommt und wann 1 vorkommt. In der Definition wird auf 
zweierlei Bezug genommen: erstens darauf, wie die wahre Verteilung bei 
primären Versuchsarten lautet; zweitens darauf, zu welchem Ergebnis ein 
primärer Versuch führte. Dadurch, daß im Definiens eine geeignete 
Adjunktion steht, befreit man sich von der Notwendigkeit, eine Kenntnis 
über die wahre Verteilung der primären Versuchsart erlangt zu haben. 



0 kommt bei einem Versuch 
(der Art) T* vor 



1 kommt bei einem Versuch 
(der Art) T* vor 



gdw 



entweder K bei einem Versuch 
T vorkommt und W (K) = 0,6 

oder S bei einem Versuch T 
vorkommt und W ( K ) = 0,4 



'entweder K bei einem Versuch 
T vorkommt und W (K) = 0,4 

oder S bei einem Versuch T 
vorkommt und W(K) — 0,6 



Es gilt: 

(!') 

(2') 



W(0) = 0,6, 
W(l) = 0,4. 
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(Aufgabe: Man gebe einen Beweis unter Benutzung der zweifachen Fall- 
unterscheidung, welches die wahre Verteilung bei der primären Versuchs- 
art ist.) 

Es wäre vielleicht angebracht, (!') und (2') statistische Metaaussagen zu 
nennen und die für T * geltende Verteilung als Metaverteilung zu bezeichnen; 
denn der Begriff des Resultates bei Versuchen der Art T* ist ja durch Bezug- 
nahme auf die Chancen der beiden möglichen Verteilungen von T definiert. 

h * sei die Hypothese, daß 0 bei dem nächsten Versuch V\ der Art T * 
. vorkommt. Es gilt: 

(30 s(h * | d) = 0,6. 

(Hinweis: Da für die abgeleitete Versuchsart die Verteilung bekannt ist, 
folgt diese Behauptung aus (1') und A 5 .) 

Wenn man die in der Definition des Vorkommens oder Nichtvorkom- 
mens von 0 enthaltene Symmetrie beachtet, so liegt es nahe zu behaupten : 
e ist bezüglich d für die Hypothese b* irrelevant. (Dies ist wieder der intui- 
tive Zwischenschritt, der noch formal zu präzisieren ist.) Wenn man dies 
akzeptiert, so erhält man aus (3') : 

(4') s(b*\ d Ae) = 0,6. 

Nun gehen wir nochmals auf die Definition „0 kommt bei T* vor“ zu- 
rück. Danach gilt: 

dAe\{-h*<r->W(K) = 0,4. 

Aufgrund der Stützungslogik gewinnt man daher schließlich : 

(5') s(W(K) = 0,4 | a *?) = 0,6. 

Damit ist die gestellte Aufgabe gelöst. Das Ergebnis ist bemerkenswert : 
(5') besagt ja, in welchem Grad verfügbare Daten eine rein statistische Hypothese 
über die wahre Verteilung stützen . 

Wenn man das Argument, für das wir die Fishersche Bezeichnung 
Fiduzial- Argument übernehmen, anatomisch analysiert, so erhält man bei der 
logischen Zergliederung die folgenden Schritte : 

7. Schritt: Man formuliere gewisse Ausgangsdaten d über Versuche des 
Typs T an einer experimentellen Anordnung. Diese Daten enthalten in den 
nichttrivialen Fällen keine Behauptung über die wahre Verteilung, sondern 
nur eine Aussage über verschiedene mögliche Verteilungen. 

2. Schritt : Man definiere einen abgeleiteten Versuchstyp 7 1 *, der folgender- 
maßen geartet ist: Obwohl die Verteilung für die Versuche der Art T un- 
bekannt sind, kann aus d eine eindeutige Verteilung für die Versuche der 
Art T* gefolgert werden. Wir nennen dies den Kernversuchstrick . 

i. Schritt : Man benütze das Likelihood-Stützungsaxiom , um den Grad zu 
bestimmen, in dem das Ausgangsdatum d verschiedene (oder gewisse) 
Hypothesen darüber stützt, daß ein Versuch der Art T* zu dem genau be- 
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stimmten Resultat führt. (Der Ausdruck „Resultat“ bezieht sich hier auf 
Vorkommnisse bei Versuchen des Typs jT*.) 

4. Schritt: Ein weiteres Datum e sei gegeben, welches das Ergebnis eines 
Versuchs vom Typ T beschreibt. 

5. Schritt (?): Unter der Annahme von d erweist sich e als irrelevant für 
Hypothesen über das Resultat eines bestimmten Versuchs vom Typ T*. 

6. Schritt: Aus dem 3. und 5. Schritt gewinnt man eine Aussage darüber, 
in welchem Grad d he eine Hypothese darüber stützt, daß ein Versuch vom 
Typ T* zu einem bestimmten Resultat führt. 

7. Schritt: Der Kernversuchstrick war so beschaffen, daß unter der 
Annahme von d he Hypothesen über Resultate bei Versuchen von der Art 
T* äquivalent sind mit Hypothesen über die Chancenverteilung von Resulta- 
ten bei Versuchen der Art T. (Streng zu beachten: Hypothesen über Resul- 
tate sind äquivalent mit Hypothesen über die Chancenverteilung ! Die Resul- 
tate sind auf T* bezogen, die Verteilungen auf T.) 

8. Schritt: Aus den Ergebnissen der beiden vorangehenden Schritte wird 
eine Aussage über den Grad gewonnen, in dem d h e Hypothesen über die Chan- 
cenverteilung von Resultaten bei Versuchen der Art T stützt. 

Das Symbol „?“ beim 5. Schritt soll andeuten, daß es sich dabei um 
einen lückenhaften Schritt handelt, der bisher nur durch vage Plausibilitäts- 
betrachtungen ausgefüllt worden ist. Unter der Voraussetzung, daß es ge- 
lingt, diese Betrachtungen durch präzise Bestimmungen zu ersetzen, zeigt 
die Analyse zugleich die abstrakte Struktur des Argumentes, das somit vom 
obigen Beispiel unabhängig ist: Wo immer die in den einzelnen Schritten 
angegebenen Bedingungen erfüllt sind, läßt sich das Fiduzial-Argument 
nach diesem Schema durchführen. 

Von der Likelihood-Regel wird in diesem Argument nirgends Gebrauch 
gemacht! Dies könnte sich wegen des früheren — möglicherweise nicht be- 
friedigend behebbaren — Einwandes gegen dieses Prinzip als sehr wichtig erweisen . 
(Man lasse sich durch die im 3. Schritt benützte Terminologie nicht irre- 
leiten. In A 5 wird zwar der Begriff der Likelihood verwendet; dagegen setzt 
dieses Axiom die Gültigkeit der Likelihood-Regel nicht voraus.) 

Zunächst soll der Begriff der Irrelevanz inhaltlich erläutert werden, d sei 
ein statistisches Datum, welches die Hypothese h x besser stützt als die Hypo- 
these h 2 . Nach dem Früheren bedeutet dies dasselbe wie : h 1 wie h 2 sind im 
Datum eingeschlossen und die Likelihood von h x übersteigt die von h 2 . 
Angenommen, das neue Datum e tritt zu d hinzu. Dann braucht h x nicht 
mehr besser gestützt zu sein als h 2 . Es kann jedoch der Fall eintreten, daß 
das Stützungsverhältnis zwischen h x und h 2 dasselbe bleibt, wenn man von 
d zu der schärferen Information d he übergeht. Dies wird insbesondere dann 
der Fall sein, wenn erstens die Likelihood von h x bezüglich d he dieselbe ist 
wie die Likelihood von h x bezüglich d und wenn zweitens die Likelihood 
von h 2 bezüglich d he dieselbe ist wie die Likelihood von h 2 bezüglich d. 
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Hier hat sich für unser Wissen nichts geändert; wir haben nichts Neues über 
das Stützungsverhältnis der beiden Hypothesen hinzugelernt. Anders aus- 
gedrückt: e ist bei gegebenem Datum d für die beiden Hypothesen irrele- 
vant. 

Für eine präzise Fassung des Irrelevanz-Prinzips müssen wir einige 
weitere Begriffe einführen. 

Unter einer disjunktiven Klasse von Propositionen soll eine Klasse von 
Propositionen verstanden werden, die paarweise logisch unverträglich sind. 
Eine solche Klasse wird wahr genannt, wenn eines ihrer Elemente wahr ist. 
Eine derartige Klasse folgt logisch aus einer Proposition c, wenn sie bei jeder 
c wahr machenden Interpretation wahr wird, p sei eine Proposition. Eine 
disjunktive Aufsplitterung b(p) von p ist eine disjunktive Klasse von Propo- 
sitionen, die aus p logisch folgt (die Umkehrung wird nicht verlangt), a sei 
eine kombinierte Proposition mit den beiden Gliedern a x und a 2 . Eine dis- 
junktive Aufsplitterung von a ist eine Klasse von einfachen kombinierten 
Propositionen, so daß jedes erste Glied Element einer disjunktiven Auf- 
splitterung von a x und jedes zweite Glied Element einer disjunktiven Auf- 
splitterung von a % ist. Die Negation von q bezüglich p ist die Proposition 
-iqAp. 

Der logische Körper , welcher auf einer disjunktiven Aufsplitterung b(p) von 
p beruht , ist die kleinste Klasse von Propositionen, die b(p) einschließt und 
die außerdem abgeschlossen ist unter den beiden Operationen der Negation 
bezüglich p sowie der abzählbaren Adjunktion. 

Wenn p eine kombinierte Proposition darstellt und q eine Proposition 
ist, die entweder im ersten oder im zweiten Glied von p eingeschlossen ist, 
so soll unter p a q diejenige Proposition verstanden werden, die aus p da- 
durch hervorgeht, daß man je nach Fall das erste oder das zweite Glied von 
p durch q ersetzt. (Diese Festsetzung ist dadurch gerechtfertigt, daß es sich 
nur um eine Vereinfachung in der Sprechweise handelt; denn das Ergebnis 
dieser Ersetzung ist logisch äquivalent mit p a q, wenn man die Konjunktion 
im üblichen Sinn deutet.) 

d sei eine kombinierte Proposition und e sei eine singuläre Proposition, 
die im Zweitglied von d eingeschlossen ist. Es sei b ± eine disjunktive Auf- 
splitterung von d und i> 2 e i ne disjunktive Aufsplitterung von d Ae. Weiter 
soll eine bijektive Abbildung cp zwischen und b 2 bestehen, so daß zuge- 
ordnete Glieder logisch äquivalent sind. Wegen der Invarianz der Likeli- 
hood-Definition in bezug auf logische Äquivalenz kann bei der Bestim- 
mung der Likelihoods von Elementen aus i> 2 bezüglich d Ae jedes dieser 
Elemente durch sein 99 _1 -Bild ersetzt werden. Dies setzen wir im folgenden 
stillschweigend voraus, d und e sollen die eben angegebene Bedeutung 
haben. Dann definieren wir: 
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D x e ist bei gegebenem d irrelevant für die disjunktive Aufsplitterung b 
von d gdw die Likelihood jedes Elementes von b bei gegebenem d gleich 
ist seiner Likelihood bei gegebenem d a e 111 . 

Das Irrelevanz Axiom lautet nun : 

A 6 h sei eine einfache kombinierte Proposition, welche Element des 
logischen Körpers ist, der auf einer disjunktiven Aufsplitterung 
b von d beruht. Wenn e bei gegebenem d irrelevant ist für b, dann 
gilt: s(b | d) = s(h | d a e). 

Es sei an den Unterschied gegenüber dem Vorgehen Carnaps erinnert. Wäh- 
rend bei Carnap durch die in A 6 angeführte Gleichung die Irrelevanz definiert 
wird, soll hier die Gleichung aufgrund des Axioms eine Folge der Irrelevanz sein, 
die ihrerseits in der Sprache der Likelihoods definiert ist. 

Zwecks größerer Veranschaulichung dieser abstrakten begrifflichen 
Apparatur sei das zweite Beispiel so weit analysiert, daß die Art der An- 
wendung von A 6 deutlich wird. Dazu müssen die verschiedenen Aussagen 
in der Sprache der kombinierten Propositionen ausgedrückt werden. Die 
Beschreibung der Anordnung, des Versuchstyps usw. übernehmen wir von 
früher; T* sei wieder der dortige Kernversuchstyp und Vj* ein bestimmter 
Versuch vom Typ 7"*. Zunächst haben wir die beiden logisch äquivalenten 
Daten d und d* : 

d: «AT, r, W(K) = 0,4 v W(K) = 0,6); (X,V T ,KvS)) 

d *: «AT, r, W(K) = 0,4 v W(K) = 0,6); <AT, V T *> 0 v 1» 

(Beide Daten sind nur in bezug auf die Verteilungshypothesen informativ; 
dagegen lassen sie das konkrete Versuchsresultat offen.) 

Aufgrund der Erklärung der Kernversuche T* sind d und d* logisch 
äquivalent. So wie früher besage e, daß beim Versuch Vj das Merkmal S 
vorkommt. Da e im zweiten Glied von d eingeschlossen ist, kann die Kon- 
junktion d a e nach der obigen Festsetzung mit der folgenden Aussage iden- 
tifiziert werden: 

d a *: «AT, T, W(K) = 0,4 v W(K) = 0,6); <AT, V T) J». 

Zunächst wird die Aussage in die Aussagen (la) und (lb) disjunktiv 
aufgesplittert, und zwar nur bezüglich des ^ weiten Gliedes : 

(la) «... analog... >;<X,F r *,0», 

(lb) «... analog... >;<Af,K r *,l». 

111 Ohne die getroffene Konvention müßte es umständlicher heißen: „ . . . bei 
gegebenem d gleich ist der Likelihood seines (^-Bildes in der disjunktiven Auf- 
splitterung von d A e bei gegebenem d a e.“ 
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Ferner wird die Aussage d Ae disjunktiv aufgesplittert, und zwar be- 
züglich des ersten Gliedes : 

(2a) «V, T, W{K) = 0,4); (X, V T ,S)), 

(2b) «AT, T, W{K) = 0,6) ; <V, V T , J». 

Nun bedenken wir, daß (la) und (lb) beide in d * und damit auch in dem 
mit d* L-äquivalenten d eingeschlossen sind. Daher können beide Likeli- 
hoods relativ auf das Datum d bestimmt werden : 

(3a) die Likelihood der kombinierten Proposition (la) bei gegebenem 
beträgt 0,6, 

(3b) die Likelihood der kombinierten Proposition (1 b) bei gegebenem 
d beträgt 0,4. 

Die Begründung wird durch (1') und (2') geliefert. 

Da beide Aussagen (2a) und (2b) indAe eingeschlossen sind, erhalten wir 
analog — diesmal unmittelbar aus der Definition der Likelihood — die bei- 
den Zwischenresultate: 

(4a) die Likelihood der kombinierten Proposition (2a) bei gegebenem 
d Ae beträgt 0,6, 

(4b) die Likelihood der kombinierten Proposition (2b) bei gegebenem 
d Ae beträgt 0,4. 

Wir benützen jetzt die bereits früher (unmittelbar hinter (4')) benützte 
Tatsache, daß aus d Ae die Äquivalenz des dortigen A* mit W(K) — 0,4 
folgt. Da A* in der jetzigen Formalisierung durch (Af, V ?*, 0), also durch 
das zweite Glied von (la) wiedergegeben wird, kann man aus d Ae folgern, 
daß (la) äquivalent mit (2a) und analog (lb) äquivalent mit (2b) ist. Somit 
ergibt sich aus der erwähnten Invarianzeigenschaft des Likelihood-Grades : 

(5a) die Likelihood der kombinierten Proposition (la) bei gegebenem 
d Ae beträgt 0,6 ; 

(5b) die Likelihood der kombinierten Proposition (2a) bei gegebenem 
d Ae beträgt 0,4. 

Nach A 5 erhält man aus (3a) und (3b) : 

(6a) J*((la) | d) = 0,6; 

(6b) x((lb)| <0 = 0,4. 

Der Vergleich von (3a) mit (5a) und von (3b) mit (5b) lehrt, daß e bei 
gegebenem d irrelevant ist für (la) und ebenso irrelevant für (lb). Mittels A 6 
gewinnt man daher : 

(7a) s((U)\dA 0 = 0,6; 

(7b) s((lb)\dA 0 = 0,4. 
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Wenn wir wieder die Äquivalenz von (la) mit (2a) und von (lb) mit (2b) 
bezüglich d a e berücksichtigen und bedenken, daß das zweite Glied dieser 
zwei Aussagen mit e identisch ist, so gewinnen wir : 

(8a) s((X,T,W(K) = 0A)\dAe)^Q,6; 

(8b) T , W(K) = 0,6) | d a e) = 0,4. 

(8a) ist nichts anderes als die frühere Aussage (5'). 
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